4月23日,由中国通信标准化协会与中国信息通信研究院联合指导,SDN/NFV/AI标准与产业推进委员会主办的中国云网智联大会在京启幕。紫光股份旗下新华三集团受邀出席大会主论坛,与业界专家共同探讨下一代智算网络关键技术趋势,并在大会现场重磅发布基于DDC(Diversity Dynamic-Connectivity,多元动态联接)架构的新一代无损网络解决方案。该方案聚焦AI时代智算中心面临的流量拥塞与调度复杂等核心难题,通过架构创新实现网络全链路的高效协同与无损传输,助力客户重塑智算中心网络底座,全面释放算力价值。
(新华三集团交换机产品线首席产品经理张鸿凌发表主题演讲)
多元算力调度与端网协同将是下一代智算网络关键技术能力
大模型参数跃升至万亿级,AI技术演进正推动基础设施全面升级。尽管网络投入在整体成本中占比较小,但其对训练效率和算力回报的影响已成为智算中心升级的关键变量。新华三集团交换机产品线首席产品经理张鸿凌在演讲中指出,随着大模型快速迭代,智算网络正面临全新的挑战:一方面,开源趋势加速生态扩展,算力类型愈加多样;另一方面,流量模型日趋复杂,对网络的带宽与调度能力提出更高要求,未来的智算网络必须同时具备对多元算力的兼容能力与对复杂流量的敏捷调度能力,向更加开放、高效、可扩展的方向不断演进。
DDC是解决AI网络拥塞与调度难题的更优解
凭借二十余年企业网的技术积淀,新华三集团推出基于DDC架构的新一代无损网络解决方案,采用先进的信元交换机制,优化流量均衡,应对AI网络在高并发场景下的拥塞与调度挑战,同时提升大规模集群的可靠性与可管理性。该方案通过ScheduledFabric实现跨交换机流量调度,提升训练效率,并兼容400G/800G接入速率,突破传统端口容量限制,助力超7万卡集群组网。根据Tolly测试,新华三基于DDC架构的RoCE网络在All-to-All流量模型下,总线带宽与IB网络相当,且消息尺寸越大效果越佳。此外,新华三坚持开放共建的理念,携手生态伙伴基于OSF(人工智能网络开放调度架构)制定DDC核心框架标准,重点解决智算网络场景下的负载均衡、拥塞控制、网络可靠性三大核心问题,推动网元级的灵活异构与互联互通。
强壮国产智算生态推动端网融合高效协同
面向国内多元算力的生态适配需求,新华三同步推出端网协同以太网方案,实现算力与网络的高效融合,全面提升端网协同与调优能力。
作为智算互联的旗舰产品,H3CS9825-8C-G交换机基于国产芯片设计,采用全国产器件,具备灵活插卡与出色的场景适配能力,支持全RoCE特性,并提供25.6T高带宽互联,是构建国产化智算网络的重要支撑。
在算法层面,新华三通过增强CBRC算法,进一步推动端网流量的有序协同:一方面,网络与网卡协同整合全局信息,实现统一调度与精细化流量均衡,显著提升训练效率、降低通信拥塞;另一方面,算法引入更多网络参数,使测算更精准,在保障稳定性的同时最大化训练性能。同时,方案还具备端侧流控响应机制,可根据链路状态联动调整网卡配置,快速应对拥塞、加快恢复,显著降低因网络异常导致的停机风险。
长距RDMA方案加速算力跨域流动
除了集群内的无损传输外,跨域算力流动同样对网络稳定性提出了更高挑战。链路距离拉长后,传统的拥塞感知和通告机制面临响应延迟、调整周期过长等问题,导致流量控制不及时,业务频繁出现速率波动,严重影响稳定性与训练效率。针对这一痛点,新华三推出长距RDMA优化方案,由网络设备代替接收端主动探测流量并提前发送拥塞通知,显著缩短降速响应周期,实现了对原始业务流的透明处理,确保接收端无感知、不干扰,保障业务连续性。实测数据显示,该方案在跨域链路中可将响应时间缩短约81.4%,吞吐量提升约11%,有效支撑跨地域智算资源的高效协同。
(新华三出席“构建人工智能时代大模型的算力基础设施”圆桌对话)
大会期间,《新华三助力南方航空实现基于AI与SDN技术的无线网络智能运维》项目在“2024年度中国SDN、NFV、网络AI优秀案例征集”评选中荣获应用创新案例奖。
在AI驱动的时代热潮下,算力与网络正加速融合、互为动力,协同成为驱动智算发展的核心引擎。新华三将坚持以市场需求为导向,践行“算力×联接“理念,持续攻关算网融合技术,携手业界伙伴共同打造开放、多元、可持续的智算生态,以高品质网络联接为百行百业智能升级构筑坚实基座。
审核:马国香 付强
校对:米果 晓符