趋势一:猛烈的能源需求与可持续的算力基础设施
进入2025年,以数据中心为代表的算力产业面临着前所未有的可持续性挑战。OpenAI CEO Sam Altman指出,充沛的智能需要建立在强大的能源基础之上。的确,能源不仅是人工智能的基石,更是所有算力基础设施的命脉。全球范围内,包含10万卡(H100 GPU)甚至千兆瓦级规模的超大规模集群正在加速建设,算力基础设施的能源需求持续攀升,这对能源供应和环境可持续性构成严峻考验。
电力消耗方面,专业机构预测,2025年全球科技巨头拥有的芯片数量将高达1240万块(等效H100 GPU),其折算功耗超过1万MW,耗电量惊人。此外,科技巨头购买GPU芯片还需承担每年数以千万美元计的电力成本。据测算,一个拥有20480块GPU的数据中心集群,在80%利用率和1.25PUE条件下,每年理论耗电量高达249,185 GWh。
水资源消耗同样不容忽视。加州大学河滨分校和德克萨斯大学阿灵顿分校的研究人员估算,到2027年,AI基础设施的全球水资源需求将超过丹麦全年用水量,相当于英国用水量的一半。
在全球“双碳”政策背景下,构建可持续的算力基础设施势在必行。为实现可持续发展目标,PUE亦需向更加精细化的方向演进,例如对机柜内IT设备功耗进行更精准的统计监测与管理,以便在猛烈的能源需求到来前,尽早构建可持续的算力基础设施。
趋势二:芯片的极速迭代与算力基础设施的性能需求
2025年,英伟达下一代GPU GB300可能会出现多个关键硬件规格变化:引入GPU插槽、增设冷板模块并采用更高功率电源模块(独立电源架)等等。而这些背后的核心驱动因素是对算力效率和商业回报。显然,AI持续爆发正对全球算力基础设施的弹性提出更高要求。
以GPT-4为例,该模型参数规模庞大,计算复杂度极高,对底层算力基础设施提出了严峻挑战。
如图所示的GPT-4性能估算,清晰地展现了不同硬件配置下性能的显著差异。对比H100和GB200等不同硬件配置驱动GPT-4的性能,采用GB200 Scale-Up 64配置的盈利能力是H100 Scale-Up 8配置的6倍。这意味着在相同投入下,新一代算力基础设施能提供更高的算力效率与商业回报,而这些都基于更具弹性的设计与硬件迭代。
对IDC厂商来说,面向AI爆发与IT的快速迭代,如何让长达5年甚至更长的数据中心建设具有弹性正在受到更多市场关注。
对算力核心设备厂商来说同样面临巨大挑战,光子学技术的先驱、Ayar Labs首席执行官Mark Wade就对此表示过明确的担忧:"铜互连已经无法以经济的方式支持AI工作负载。业界现在面临一个情况,即硬件构建者需要大幅提高这些系统的成本效益吞吐量。否则,我们都将走向类似于互联网泡沫破裂的崩溃。"。
趋势三:Agent等推理加速渗透与多元智算需求
进入2025年,大模型训练的放缓并没能阻止AI热潮的延续,以Agent为代表的AI推理需求正在进一步加速算力基础设施建设。尤其Agent带来的异步互动特性(与用户或其他系统进行非实时的交互)将大幅消耗token数量,进而对AI算力基础设施形成更加强烈的依赖。
与此同时,混合云市场份额也将因Agent特有的工作状态需求获得大幅提升。届时,从算力供给结构来看,AI算力中将有75%用于推理,25%用于训练。
趋势四:强化算电协同与创新节能技术
在全球范围内,各国从政府到大型企业都在投入可持续能源建设以支持算力产业发展,持续强化以数据中心为代表的算电协同,并催生一系列创新技能技术的诞生。一方面,算力增长需要大量电力能源支持,另一方面,能源电力系统转型也需要算力提升对新能源消纳的能力和比例,最终创新技能技术成为算力与电力的一致需求。
展望2025,在这一趋势下,算力和电力协同模式将会在各种创新节能技术趋势下迎来发展机遇,尤其核电正在受到全球各国政府及科技巨头关注。
联系人:小郭
手机:15632171527
电话:15001307021
邮箱:guoxinkai@linktom.com
地址: 北京市海淀区苏州街长远天地大厦