新闻动态

超节点算力革命(八)| 超节点发展趋势探讨

【前文回顾】针对算力超节点这一新型计算基础设施,构建一套科学、可量化的综合效能基准指标体系,涵盖算力、网络、存储、稳定性与能效、运维五大维度,有效评估超节点的综合性能与竞争力。


本篇展望未来1至2年智算超节点的核心发展趋势,将深入剖析五大关键趋势:协议收敛、规模突破、互联革新、生态开放、软件适配。结合当前领先厂商的技术实践,探讨未来智算超节点的的技术演进路线图。


据IDC预测,2025年中国智能算力规模将达到1,037.3 EFLOPS,到2028年将进一步增长至2,781.9 EFLOPS,五年年复合增长率高达46.2% 。传统通过通用以太网连接标准化服务器,难以满足大模型分布式训练中高频次集合通信对带宽与时延的核心诉求。行业分析显示,传统架构下30%-50%的算力消耗于数据传输,时延居高不下,集群规模扩大后瓶颈愈发突出。超节点凭借高密度集成、高速互联、全局协同的核心优势,彻底打破“堆服务器扩算力”的旧模式,成为未来智算中心的核心部署形态。未来2年,超节点将向更高的传输带宽与计算性能、突破更大规模的 XPU 互联能力,以及构建更开放、更友好的全产业链生态,实现性能、规模与生态的协同升级。


趋势一:Scale UP互联协议收敛,开放标准引领主流


在超节点内部,连接成百上千个AI加速器的高速互联总线协议,是整个系统的“中枢神经”。当前,这一领域正处于一个群雄逐鹿的“战国时代”,多种协议并存,形成了封闭与开放两大阵营的激烈博弈。展望未来2年,Scale UP总线领域将逐步走向收敛,形成开放协议主导主流市场,封闭协议深耕极致性能场景的新格局。




①开放协议联盟将主导主流市场
  • 驱动力:绝大多数AI应用开发者和云服务提供商的核心诉求是避免供应商锁定、降低成本、提升系统灵活性。华为UB灵衢协议的开源,则为市场提供了另一个高性能的开放选择,尤其是在寻求自主可控供应链的地区和行业。UALink联盟汇集了除英伟达之外的几乎所有行业巨头,其推动的开放标准将成为构建多元化、异构AI算力池的基础。
  • 市场份额预测:尽管起步较晚,但开放协议的势头强劲。有市场研究机构预测,到2028年,仅UALink交换机就有可能占据Scale-Up交换机市场总量的20% 。随着生态的成熟和产品的普及,开放协议阵营的市场份额将持续扩大。
②封闭协议(NVLink)将在极致性能场景保持领先
  • 护城河:英伟达通过“GPU + NVLink + CUDA”构建了极深的护城河。对于追求极致模型训练性能的头部科研机构和少数商业公司而言,NVLink提供的软硬件一体化最优性能和最低延迟,仍然具有不可替代的吸引力。
  • 策略调整:面对开放生态的压力,英伟达也开始调整策略,宣布开放NVLink IP授权(NVLink Fusion) 。这一举措旨在将其私有协议打造为“事实标准”,吸引更多第三方芯片融入其生态,从而在与UALink的竞争中巩固自身地位。尽管如此,其生态的主导权依然牢牢掌握在英伟达手中。
③以太网方案(SUE等)将成为高性价比选择
基于以太网的Scale-Up方案,凭借其庞大的生态系统、成熟的技术和无与伦比的成本优势,将在对成本敏感或对网络延迟要求不是最极端的应用场景中,占据一席之地。它将成为构建大规模、高性价比AI集群的重要选择。
未来,超节点互联协议市场,开放协议将赢得最广泛的主流市场,成为构建普惠AI算力的基石;高性能封闭协议将在高端市场继续扮演领导者角色;而以太网方案则作为重要的补充,满足多样化的市场需求。


趋势二:千卡超节点成为新基准


展望未来2年,全球智算基础设施将迎来规模跃迁与价值兑现的关键周期,千卡级超节点将全面进入常态化部署阶段,万卡级超节点则完成从技术验证到商业化落地的关键跨越。


①千卡超节点方案走向成熟与普及

主流的Scale-Up互联协议,如UALink、SUE、OISA等,其设计目标都将单超节点的最大节点规模定义在1024个,随着这些开放互联协议的相关上下游产业链的逐步成熟,为千卡超节点的普及铺平了道路 。全球主流的云服务商、AI硬件厂商以及系统集成商,均已将超节点作为其核心产品战略。例如,阿里巴巴的“磐久128超节点”(UPN512 全光互连架构将4个磐久128互联)、中科曙光的“ScaleX640超节点”、百度的“天池系列超节点(最高达512卡)”、中兴通讯的“Nebula星云智算超节点”以及浪潮信息的“元脑SD200超节点”,这些产品的相继发布和市场推广,标志着业界已经普遍接受并将超节点作为AI算力交付的基本单元 。这些方案虽然在初期规模上以数百卡为主,但其架构设计本身瞄准了向千卡以上的平滑扩展。


②万卡超节点竞赛开启,定义下一代算力巅峰

在千卡集群普及的同时,头部厂商已经将目光投向了规模更宏大、技术挑战更艰巨的万卡集群,这代表了未来2年内AI算力的巅峰形态。

  • 华为的引领与实践:华为在此领域展现出强大的前瞻性和工程能力。其即将于2026年正式上市的Atlas 950SuperPod,规划的算力卡规模高达8192卡,整体算力性能达到8 EFLOPs (FP8) 。这不仅是规模上的巨大飞跃,更是对网络、供电、散热、系统软件等全栈技术的极限挑战。华为更早期的Atlas 900A3 SuperPod超节点自上市以来已累计部署超过500套,为更大规模集群的研发与部署积累了宝贵的实践经验 。
  • 谷歌的深厚积累:谷歌作为最早投入大规模分布式AI训练的厂商之一,其TPU Pod系统早已实现了数千TPU芯片的高效协同。虽然具体技术细节对外披露不多,但其内部系统无疑支持着数千甚至上万加速器规模的超节点部署,这是其在Gemini等多模态大模型领域保持领先地位的基石。
  • 英伟达的演进路线:英伟达作为GPU市场的领导者,其超节点方案也在持续演进。从DGX SuperPOD到基于Blackwell架构的GB200 NVL72(单机柜集成72个GPU),再到规划于2027年推出的Rubin Ultra平台,其扩展规模和集成密度不断提升 。通过NVLink-Switch技术,英伟达的方案可以支持多达576个GPU的高效互联,并正朝着数千卡规模的更大集群演进。
未来2年超节点规模将继续快速增长。根据产业预测,到2026年底,百万卡的超大规模集群将开始出现。这意味着ScaleUP 协议标准需要在保持兼容性的同时,支持更大规模的集群配置。


趋势三:互联革新:光进铜退,破解通信墙瓶颈


传统的基于铜缆的电互联方案,在长距离、高带宽传输中面临着信号衰减、功耗巨大、电磁干扰等物理极限,已成为制约超节点规模扩展的“通信墙”。因此,一场以“光进铜退”为核心的互联技术革命正在发生。


①从电到光:必然的技术演进

随着交换机端口速率从400G/800G向1.6T/3.2T演进,传统电信号在PCB板上的传输距离被急剧压缩。为了将高速信号从交换芯片传输到前面板的可插拔光模块,需要经过复杂的PCB走线和Retimer芯片中继,这不仅带来了巨大的功耗(约占交换系统总功耗的50%),也限制了端口密度的提升。将光连接尽可能地靠近交换芯片,甚至与芯片封装在一起,成为必然选择。


②CPO/NPO共封装光学,引领互联革新

共封装光学(Co-Packaged Optics, CPO)‍ 和 近封装光学(Near-Packaged Optics, NPO)‍ 是这场革命的核心技术。
  • NPO(近封装光学)‍:作为一种过渡方案,NPO将光引擎(将电信号转换为光信号的核心器件)与交换芯片分别放置在同一块基板(Substrate)上,两者之间通过极短的电连接进行通信 。相比传统方案,NPO显著缩短了电信号传输距离,降低了功耗和延迟,同时在制造和维护上相对CPO更为成熟可行。
  • CPO(共封装光学)‍:作为更长远的目标,CPO将光引擎与交换芯片(ASIC)集成在同一个封装(Package)内,实现了光电的极致融合 。这种方式将电信号传输路径压缩到最短(毫米级),从而最大程度地提升带宽密度、降低功耗和延迟。CPO被广泛认为是AI和超算高密度互联的终极解决方案 。NPO 技术作为 CPO 的过渡方案,正在获得更多关注。NPO 的核心设计是将光引擎靠近交换芯片或 GPU 封装,距离缩短至毫米级,既保留可插拔模块的开放解耦特性,又实现带宽密度、功耗、延迟的显著优化(79)。NPO 方案相较 CPO 拥有更多的灵活性和性价比优势,是云服务提供商比较青睐和重视的方案,有可能成为一个较为长期的技术选择。


③全光大平层与光电混合协同

在超节点系统架构层面,CPO/NPO技术将催生新的网络拓扑。传统的胖树(Fat-Tree)等多层收敛型网络架构,在万卡集群中会导致跨越多级交换机的通信延迟累积。未来的超节点内部网络,将向全光大平层(All-Optical Flat Layer)‍ 架构演进。在这种架构下,所有计算节点都通过光连接直接接入一个或多个核心光交换平面,实现任意两点间的“单跳”或极少跳数通信,彻底消除网络瓶颈。

当然,在机柜内部(Scale-Up),节点间可能仍采用高密度铜缆或板上光互联;而在机柜之间(Scale-Out)和机柜集群之间,则采用基于CPO/NPO的全光互联网络,构建一个无阻塞、低延迟的通信主干。


势四:超节点支持硬件解耦,更开放生态


长期以来,AI算力基础设施市场,尤其是在高性能计算领域,呈现出由少数厂商主导的垂直整合、软硬一体的封闭生态格局。然而,随着超节点规模的急剧扩张和应用场景的多样化,这种封闭模式的弊端日益凸显:供应商锁定风险高、创新成本高昂、系统灵活性差。


①OTT 厂商引领开放生态建设

开放生态的核心诉求在于打破单一厂商的技术垄断,通过标准化、模块化的方式,为产业链各环节的参与者提供更广阔的创新空间和市场机会。腾讯的ETH-X开放超节点方案、字节跳动的大禹超节点等,都是大型互联网公司基于自身业务需求,推动基础设施开放化的典型实践 。Meta在开放生态建设方面走在最前列,其推出OCP加速模型(OAM),实现了系统中内存、计算、网络部件的全面解耦,使每一项都可以独立地进行扩展。OAM 标准允许 AMD、 Nvidia 和GraphCore 等多家厂商在统一规范上开发解决方案。这种开放架构不仅降低了技术门槛,更重要的是为用户提供了更多选择,避免了单一厂商锁定。

OCP(Open Compute Project)主导的Open Accelerator Module(OAM)规范定义了AI加速器的物理尺寸、电源接口、散热接口、管理接口,使得不同厂商的加速器可互换部署。UBB(Universal Baseboard)规范则定义了基板设计,支持8颗OAM加速器的互联。这些规范已被微软Azure、Meta、百度等大规模部署。


②开放架构,使计算、内存、网络等关键部件能够独立演进和灵活组合

开放标准的技术特点体现在多个方面。首先是标准化设计,开放协议采用统一的技术规范,确保不同厂商产品的互操作性;其次是多厂商支持,通过开放标准吸引众多厂商参与,形成丰富的生态系统;第三是技术透明性,协议规范公开透明,便于各方理解和实现;最后是持续演进能力,通过开放的标准制定机制,能够快速响应技术发展和市场需求。关键部件解耦:计算、存储、网络的独立演进。

华为通过开源灵衢(UnifiedBus)协议展现了中国厂商在开放生态建设中的决心。华为的超节点架构与灵衢协议打破了传统封闭架构的格局,通过将硬件设计和互联协议全面开源,正在构建一个类似 "开源公路系统" 的算力生态 —— 任何企业都可以基于公开标准开发兼容产品,无需担心被单一供应商锁定。华为不仅开放了灵衢协议,还全面开放了超节点基础硬件,包括 NPU 模组、风冷刀片、液冷刀片、AI 标卡、CPU 主板和级联卡等不同形态的硬件,方便客户和伙伴进行增量开发。关键部件解耦是开放架构的核心特征,使得各子系统可独立选型、独立升级、独立优化,避免”牵一发而动全身”的系统性风险。


③互联芯粒(Chiplet)
芯粒(Chiplet)技术是实现硬件开放与解耦的底层物理基础。传统单片系统(SoC)将所有功能集成在一块芯片上,设计复杂、成本高昂且灵活性差。芯粒技术则反其道而行之,将复杂的芯片功能拆分为多个独立的、功能专一的小芯片模块(即芯粒),再通过先进的封装技术将它们集成在一起 。
  • 功能解耦:计算、I/O、存储控制等不同功能可以被制作成独立的芯粒 。例如,可以将负责数据互联的I/O功能从主计算芯片(如GPU/NPU)中分离出来,形成专门的“互联芯粒”。这种分离使得计算单元可以专注于逻辑运算,采用最先进的工艺(如3nm)以追求极致性能;而互联芯粒则可采用更成熟、成本更低的工艺,专注于实现高速、稳定的数据传输 。
  • 异构集成:来自不同厂商、采用不同工艺、甚至不同指令集的芯粒,只要遵循统一的接口标准,就可以被灵活地“混搭”在一起。这为构建高度定制化的AI加速器提供了前所未有的可能性。
  • 成本与良率优化:将大芯片拆分为小芯粒,显著提高了单个模块的制造良率。同时,功能复用(如一个成熟的I/O芯粒可以搭配多款不同的计算芯粒)也有效降低了研发和制造成本 。


趋势五:异构算力协同与资源动态调度


随着AI应用场景的日益复杂化,从单一的计算密集型训练任务,扩展到包含复杂逻辑处理、数据预处理、实时推理等多样化负载,仅依靠同构GPU集群的“暴力计算”模式已不再是最高效的解决方案。


①从同构到异构集成

超节点架构正从“单一加速器集群”向“异构计算集成”方向发展。英伟达NVLink Fusion技术允许第三方CPU和加速器通过授权方式接入NVLink生态系统,标志着即使是封闭生态的领导者也开始接受异构集成趋势。未来,超节点将进一步整合AI加速器、通用处理器、专用芯片(如NPU)等多元算力,根据工作负载智能调度最佳计算资源。

这种异构集成不仅体现在芯片层面,更将延伸至存储层级和网络架构。计算存储一体化(Computational Storage)技术允许在存储设备内直接处理数据,减少数据搬运开销。内存计算(Near-Memory Computing)和存内计算(In-Memory Computing)技术将部分计算功能嵌入存储层级,极大提升能效比。超节点将从简单的计算集群演进为“异构融合的计算综合体”,根据任务特征动态组织计算、存储和网络资源。


②多芯片协同调度技术突破

异构计算的成功关键在于高效的多芯片协同调度技术。通过智能的调度算法,可以将不同类型的计算任务分配给最适合的硬件资源,实现资源利用率的最大化。

研究表明,合理的异构调度可以将资源利用率提升30% 以上,显著降低算力成本。阿里云的异构算力调度系统支持 CPU、GPU、NPU 等异构资源的调度,通过强化学习模型预测任务需求,提高了资源利用率 30%,减少了任务延迟 20%。这种智能化的调度方式能够根据任务特征自动匹配最优的计算资源,避免了人工配置的复杂性和低效性。


趋势六:软件生态适配新型AI负载的编程新范式


现代化超节点规模庞大,必须依靠智能化运维工具来保障效率与可靠性。
软件生态与编程范式的根本性变革
随着超节点硬件架构的快速演进,传统的AI 软件框架已经无法充分发挥新型硬件的性能优势。软件生态和编程范式正在经历根本性的变革,以适应超大规模、异构、分布式的计算环境。面对超节点架构的挑战,现有的框架都存在明显的局限性。传统的SPMD(Single Program Multiple Data)范式难以处理 MoE(Mixture-of-Experts)和多模态架构中固有的负载不平衡问题。此外,在分层内存系统中手动管理中间状态(权重、激活值和 KV 缓存)给研究人员带来了巨大的工程负担。

注:SPMD 强同步、强一致、负载均衡的固有假设被打破,会导致大量设备空转等待、通信阻塞、算力利用率低下,无法高效适配MoE 与多模态架构中天然存在的负载不平衡问题。


为了解决这些问题,超节点亲和的AI 框架应运而生。这类框架将超节点视为单一逻辑计算机,并将硬件感知的编排嵌入到框架中。这种设计理念代表了 AI 框架发展的新方向,它要求框架不仅要支持传统的计算图优化,还要能够感知底层硬件的拓扑结构、内存层次、互联特性等,从而实现更高效的资源利用。


硬件感知型AI 框架的技术创新

硬件感知型AI 框架通过引入多项创新技术,实现了对超节点硬件架构的深度适配。
  • 拓扑发现:自动识别超节点内部互联结构
  • 通信模式分析:基于计算图预测通信需求
  • 路由优化:选择最优通信路径,避免拥塞
  • 重叠优化:最大化计算-通信重叠度
华为的MindSpore 提出的HyperParallel 架构具有代表性,该架构包含三个核心组件:HyperOffload、HyperMPMD 和 HyperShard。HyperOffload 依托统一内存池与自动卸载技术,解耦计算与模型状态,缓解内存瓶颈,并通过多级缓存调度隐藏访问延迟,显著提升训练与推理性能。
HyperMPMD 将传统 SPMD 扩展为细粒度 MPMD 并行,适配异构算力与多任务负载,解决 MoE、多模态等场景的负载不平衡问题,提升计算效率。
HyperShard 提供声明式编程接口,解耦算法逻辑与并行策略,大幅降低并行开发与优化成本,缩短算法落地周期。


适配多样化AI 工作负载的技术路径

超节点需要支持的AI 工作负载日益多样化,包括大规模训练、实时推理、多模态处理、强化学习等。软件框架必须具备强大的适应性,能够为不同类型的工作负载提供最优的执行方案。


结语


从技术发展角度看,超节点规模将从当前的千卡级快速向万卡级甚至十万卡级演进,华为、谷歌等厂商已经展示了支持数万卡规模的产品能力。光互联技术将逐步取代铜缆成为主流,CPO/NPO 技术的成熟将彻底解决大模型 "通信墙" 问题。异构计算架构将全面取代同构系统,通过 GPU、NPU、ASIC 等多芯片协同,实现计算资源的最优配置。


从产业生态角度看,开放化和标准化将成为不可逆转的趋势。协议层面,开放型协议将逐步占据主导地位,封闭系统的市场空间将被压缩。OTT 厂商和行业组织正在推动硬件架构开放和解耦,打破传统厂商的技术垄断。软件框架将向硬件感知型演进,通过智能化的调度和优化,充分发挥新型硬件的性能潜力。


全球计算联盟(英文“Global Computing Consortium”,简称“GCC”)作为中国首个计算领域的国际性产业与标准组织,由计算领域的技术提供者、生产商、系统集成商、企业用户、科研院所等共同发起成立,以“新型计算赋能数智社会”为愿景,秉持“开放、创新、协作、共赢”的价值观,致力于推动计算产业开放创新,构筑强健繁荣的生态,支撑数智社会可持续发展。