新闻动态

业内新闻

当前您的位置: 首页 > 新闻动态 > 业内新闻 > 正文

全球唯一!中移云能团队大模型领域成果获顶级学术会议“最佳论文奖”

时间:2025-01-10  浏览次数:


随着人工智能技术的快速发展,大型深度学习模型已广泛应用于语言处理和代码生成等多个领域。大模型通常需要数千个GPU和长达数月的训练时间,意外的程序错误和硬件损坏会导致训练任务频繁中断。因此,大模型训练依赖检查点机制周期性地保存模型快照,确保故障后的断点续训能力。训练任务必须等待检查点处理完成后才能继续进行,但是现有检查点机制的保存及加载吞吐量较低,严重停滞训练任务和降低计算资源利用率。

针对以上挑战,异构多路径检查点机制ParaCkpt应运而生,创新性地利用CPU内存、本地存储和远端存储的并行I/O能力来提升检查点性能。ParaCkpt首先识别GPU到CPU内存、本地存储和远程存储的多条PCIe传输路径,并确定所有路径的可用带宽。然后将模型划分为基于路径的分片,并充分利用PCIe点对点传输技术,将分片从多个GPU并行导出到内存和异构存储设备中,从而突破现有单路径检查点机制的传输性能瓶颈。ParaCkpt的核心存储架构简洁高效,多路径并行传输方法吞吐量提升效果明显,可适用于现有绝大部分AI模型训练基础设施。在基于真实训练服务器的原型系统测试中,ParaCkpt实现单机超100GB/s的检查点保存吞吐量,相比原生Pytorch检查点方法高出96倍,有效解决检查点过程引发的训练停滞问题。



每年一届的ICCD会议由电气电子工程师学会(IEEE)主办,是计算机体系结构领域最具影响力的国际会议之一,也是中国计算机学会(CCF)推荐的B类国际学术会议。此次获奖不仅是对团队在AI存储技术方面研究成果的肯定,也展示了IEEE国际计算机设计会议对创新技术和前沿研究的重视。

作为云计算和AI领域的“国家队”,移动云在智算赛道上耕耘多时、领势先行,移动云智算业务面向全社会提供全栈智算产品,提供包括算力、工具、生态三部分的智算资源一点接入能力。未来,公司将继续不断提升自身技术能力与学术能力,积极为中国智算产业发展“提速”。