开云体育(3)秒级备份规复:针对大模子踏实性勤勉-开云官网kaiyun切尔西赞助商 「中国」官方网站 登录入口
芯东西(公众号:aichip001)
作家 | ZeR0
编订 | 漠影
芯东西7月26日报谈,谢全国东谈主工智能大会开幕前夜,国内GPU企业摩尔线程重磅泄露其竣工AI期间布局。
面临生成式AI爆发下的大模子考试驱散瓶颈,摩尔线程正通过系统级工程篡改,构建新一代AI考试基础设施,为AGI时期打造坐褥先进模子的“超等工场”。
这座“AI工场”的产能,由五大中枢要素的公式:
AI工场坐褥驱散 = 加快野心通用性 × 单芯片灵验算力 × 单节点驱散 × 集群驱散 × 集群踏实性
张开剩余94%摩尔线程创始东谈主兼CEO张建中默示,摩尔线程是国内少许数原生支捏FP8的GPU厂商,亦然国内少许数具备FP8大模子考试的平台。
这座“AI工场”不仅有高效的模子考试,还具备极致的推理考据才能。基于自研MUSA期间栈,摩尔线程构建隐敝大说话模子、视觉、生成类模子的全经由推知道决决议,打造罢了“考试-考据-部署”的无缝链接。
笔据现场演示,其旗舰产物MTT S5000满血跑DeepSeek R1模子推理,速率达到100 tokens/s,非常快,也曾达到行业跨越。
摩尔线程还重磅预热:将于本年10月举办首届MUSA竖立者大会,邀环球竖立者共建生态。
一、打造先进AI工场,摩尔线程解密五大中枢要素
前沿AI模子正以惊东谈主的速率迭代,从GPT系列、Gemini到DeepSeek、Qwen的快速更新,模子考试迭代时分已裁减至不及3个月。丰富的模子,快速的更新,对新一代高性能AI野心基础设施建议垂危条件。
对此,摩尔线程建议“AI工场”,要罢了从底层芯片架构篡改、集群举座架构的优化到软件算法调优和资源调遣系统的全面升级,以推进AI考试从千卡级向万卡级乃至十万卡级范围演进。
摩尔线程以全功能GPU通用算力为基石,通过先进架构、芯片算力、单节点驱散、集群驱散优化、可靠性等协同跃升的深度期间篡改,旨在将全功能GPU加快野心平台的宏大潜能,升沉为工程级的考试驱散与可靠性保险。
1、全功能GPU,罢了加快野心通用性
野心功能的完备性与精度竣工性是撑捏多元场景的中枢基石。
摩尔线程以自主研发的全功能GPU为中枢,构建了“功能完备”与“精度竣工”的通用性底座,全面隐敝从AI考试、推理到科学野心的全场景需求。
(1)单芯片隐敝多场景:基于MUSA架构的毁坏性想象,GPU单芯片即可集成AI野心加快(训推一体)、图形渲染(2D+3D)、物理仿真和科学野心、超高清视频编解码才能,充分适配AI训推、具身智能、AIGC等各样化应用场景。
(2)精度诞生行业标杆:支捏从FP64至INT8的竣工精度谱系,原生支捏FP8大模子考试及推理,并通过FP8搀和精度期间,在主流前沿大模子考试中罢了20%~30%的性能跃升,为国产GPU的算力驱散诞生行业标杆。
(3)前瞻支捏模子演进:期间体系不仅得志大模子时期的高效野心需求,更为全国模子和新兴AI架构的演化提供前瞻性撑捏。
2、自研MUSA架构,耕作单芯片灵验算力
摩尔线程基于自研MUSA架构,通过野心、内存、通讯三重毁坏,显赫耕作单GPU运算驱散。
(1)篡改架构毁坏传统铁心:接纳篡改的全功能、多引擎、可竖立、可伸缩GPU架构,通过硬件资源池化及动态资源调遣期间,构建了全局分享的野心、内存与通讯资源池,允许面向标的市集快速剪辑出优化的芯片竖立,大幅训斥了新品芯片的竖立资本,在保险通用性的同期显赫耕作了资源诈欺率。
(2)野心肠能显赫耕作:AI加快系统(TCE/TME)全面支捏INT8/FP8/FP16/BF16/TF32等多种搀和精度野心。其中FP8期间通过快速体式出动、动态范围智能适配、高精度累加器等篡改想象,在保证野心精度的同期,将Transformer野心肠能耕作约30%。
(3)内存优化:通过多精度近存规约引擎、低延伸Scale-Up、通算并行资源圮绝等期间,内存系统罢了了50%的带宽省俭和60%的延伸训斥,灵验耕作数据传输才能。
(4)通讯驱散优化:首创的ACE异步通讯引擎减少了15%的野心资源损耗;MTLink2.0互连期间提供了高放洋内行业平均水平60%的带宽,为大范围集群部署奠定了坚实基础。
3、MUSA全栈系统软件,耕作单节点野心驱散
摩尔线程通过MUSA全栈系统软件罢了舛错期间毁坏,推进AI工场从单点篡改转向系统级效用耕作。其中枢篡改包括:
(1)任务调遣优化:核函数启动(Kernel Launch)时分裁减50%。
(2)极致性能算子库:GEMM算子算力诈欺率达98%,Flash Attention算子算力诈欺率毁坏95%。
(3)通讯效用耕作:MCCL通讯库罢了RDMA集聚97%带宽诈欺率;基于异步通讯引擎优化野心通讯并行,集群性能耕作10%。
(4)低精度野心驱散改造:FP8优化与行业草创细粒度重野心期间,显赫训斥考试支出。
(5)竖立生态完善:基于Triton-MUSA编译器 + MUSA Graph罢了DeepSeek-R1推理加快1.5倍,全面兼容Triton等主流框架。
4、自研KUAE野心集群,优化集群驱散
单节点驱散达到新高度后,下一个挑战是若何罢了大范围集群的高效配合。
摩尔线程自研KUAE野心集群通过5D大范围分离式并行野心期间,罢了上千节点的高效配合,推进AI基础设施从单点优化迈向系统工程级毁坏。
(1)篡改5D并行考试:整合数据、模子、张量、活水线和众人并行期间,全面支捏Transformer等主流架构,显赫耕作大范围集群考试驱散。
(2)性能仿真与优化:自研Simumax器具面向超大范围集群自动搜索最优并行战略,精确模拟FP8搀和精度考试与算子和会,为DeepSeek等模子裁减考试周期提供科学依据。
(3)秒级备份规复:针对大模子踏实性勤勉,篡改CheckPoint加快决议诈欺RDMA期间,将百GB级备份规复时分从数分钟压缩至1秒,耕作GPU灵验算力诈欺率。
基于平湖架构KUAE2智算集群,非论千卡或更大范围,在每个应用场景都能作念到比海外主流产物更高的性能和驱散,达到行业跨越水平。
5、零中断容错期间,耕作集群的踏实性和可靠性
在构建高效集群的基础上,踏实可靠的运行环境是“AI工场”捏续产出的保险。稀奇在万卡级AI集群中,硬件故障导致的考试中断会严重滥用算力。
摩尔线程篡改推出零中断容错期间,故障发生时仅圮绝受影响节点组,其余节点持续考试,备机无缝接入,全程无中断。这一决议使KUAE集群灵验考试时分占比超99%,大幅训斥规复支出。
同期,KUAE集群通过多维度考试知悉体系罢了动态监测与智能会诊,特别处理驱散耕作50%,让用户看得见和不断得到每一个考试集群的每一派GPU;诱导集群巡检与升空查验,考试凯旋率提高10%,为大范围AI考试提供踏实保险。
二、MUSA软件栈若何助力KUAE集群?三大亮点期间详解
摩尔线程GPU野心软件竖立总监吴庆分享了MUSA软件栈的主要亮点期间。
1、MUSA驱动和运行时库,KUAE集群坚实底座
推理场景对Kernel延时非常敏锐。极致高效的MUSA驱动和运行时库,具有高驱散的任务调遣才能,使用户的Kernel launch支出极致缩减。
(1)即时任务下发:通过软硬协同,将核函数启动延伸训斥到业界平均水平的1/2。
(2)批量任务下发:批量下发野心和通讯任务,快要千次下发支出优化为单次,减少GPU恭候时分。
(3)引擎间依赖阐述:GPU是多引擎可竖立的,不同引擎之间要作念依赖阐述、交互同步,平湖支捏硬件阐述引擎间的依赖作念同步,不再回到host,任务流之间的依赖阐述延时不错大幅训斥至1.5μs,优于业界头部算力卡。
(4)调优器具接口MUPTI:挑升用于性能分析和事件跟踪,匡助竖立者优化MUSA应用表率,可基于MUPTI竖立第三方的各式丰富器具。
(5)GPU子虚转存功能(GPU Core Dump,GCD):高效定位疑难Bug,不需要去调遣无数的集群和东谈主力反复去复现“好景不常”的子虚,用于在GPU表率崩溃或发生子虚时生成谨慎的信息(雷同CPU表率Core Dump),精确保存子虚,提供一个log,极大耕作MUSA核函数崩溃、作恶显存地址拜谒、硬件子虚等问题定位的驱散。
2、MUSA算子库生态日趋完善,性能与广度兼备
算子库的驱散顺利关乎分离式集群的考试驱散。MUSA算子库不仅追求极致性能,还兼容隐敝广度和兼容性。
MUSA算子库生态会提供三大算子库:极致性能muDNN、易用MUTLASS、MUSA AI Tensor Engine开源推理算子库。
muDNN,是一款极致性能的开箱即用圭臬算子库,竣工隐敝常见的前向和反向算子。其中最主要的特质是支捏竣工的XMMA,支捏Tensor Core全精度及所有目化形状,以及常用的神经集聚算子操作。
一般来说,矩阵乘的驱散大部分不错作念到90%以上,摩尔线程muDNN矩阵乘算子驱散不错作念到98%。Flash Attention算子因为多了softmax等操作,基于国际一活水平厂商的Flash Attention 3论文里提到的驱散大致是75%,muDNN的Flash Attention不错作念到95%。
影响FP8 GEMM算子驱散的要紧身分是scale形状,scale是为了幸免精度赔本作念的一个深奥化的缩放因子,常见的有Per-Tensor、Per-Block,DeepSeek V3用的是Per-Block。
吴庆打了个譬如,Per-Tensor scale是所有这个词张量共用一个缩放因子,相配于一面墙刷一个颜料,很好刷;Per-Block scale则是每个小的矩阵块共用一个缩放因子,相配于一面墙有许多小方块,每个方块单唯独个颜料,刷墙的复杂度要高许多,会比一个颜料刷一面墙驱散低10%-20%。
摩尔线程通过软硬协同的深度算法优化、教唆编排,作念到了Per-Block跟Per-Tensor FP8 GEMM野心驱散着实相配,差距不到2%。
MUTLASS,是一个高性能的线性代数模板库,可极大训斥在MUSA环境中自界说算子的竖立责任量,相配于提供了一个可供二次竖立的模板。
MUTLASS已在Github上开源,支捏平湖架构所有特质,包括Warp-level MMA、WarpSquad-level MMA、TensorMemoryEngine、AsyncBarrier等原语全面支捏,同期提供高性能矩阵乘、卷积算子罢了,可在Kernel里调用模板库就不错进行二次竖立,摩尔线程也提供Attention最优化的示例,给用户打样,不错参考提供的最好施行,去竖立自界说的各式Attention的变种。
MUSA AI Tensor Engine,是摩尔线程行将发布的面向大说话模子的开源推理算子库,可匡助竖立者快速搭建自界说推理引擎。
MUSA AI Tensor Engine,是摩尔线程行将发布的面向大说话模子的开源推理算子库,可匡助竖立者快速搭建自界说推理引擎。 该算子库提供用户友好的Python API,进一步训斥竖立者使用门槛,无需花太多时分学习MUSA C,只消会Python就不错把MTX这个库用起来;改日会支捏丰富的后端,包括模板库,对标PTX凭空教唆集去竖立的极致算子库,也支捏类Triton的DSL。
3、高性能集会通讯库及通算并行,幸免通讯霸占野心中枢资源
大模子分离式考试的主要瓶颈是通讯。摩尔线程在MTT S5000上支捏MTLINK 2.0,配备GPU异步通讯引擎,罢了了高性能通讯期间与野心高度并行。
最近十几年,跟着模子范围增多,分离式集群范围也在增多,通讯瓶颈会越来越赫然。DeepSeek V3论述中敕令硬件厂商提供的芯片能不成作念一个单独的通讯硬件来卸载通讯,幸免通讯跟野心去抢SM野心单位。
平湖想象阶段远早于DeepSeek V3发布的时分,彼时摩尔线程已知悉到行业痛点,并提供了措置决议——在GPU上增多了一个异步通讯引擎。
MTT S5000工作器拓扑每节点有8张GPU,通过MTLINK 2.0全互连,每张GPU与其他7张GPU都有直连总线。
每个GPU上竖立的异步通讯引擎是原生支捏丰富的reduce操作,支捏常用的reduce操作有ADD、MIN、MAX(累加、最小值、最大值)等操作,支捏Float、FP16、BF16等数据类型,可顺利通过MTLink进行C2C跨系统的数据通讯。
其ACE通过Zero Copy期间进一步耕作性能。一般的集会通讯会把数据buffer拷贝到通讯buffer里,再去进行C2C通讯。Zero Copy则幸免了在腹地上的D2D的拷贝,顺利把数据buffer作念跨卡通讯。
摩尔线程在忖度集会通讯库性能的时候主淌若两大中枢认识:通讯延伸、通讯带宽。
基于全互联(FC8)拓扑的高效通讯算法,可大幅训斥通讯延伸。全互联拓扑中GPU两两互连,在All Reduce场景中不错把其他GPU的数据一次性拿过来,表面上FC8算法比拟Ring算法,7步通讯可酿成1步完成。在单机8卡All Reduce延伸场景的实测也差未几,Ring算法粗略是53us,用FC8算法可训斥至7.8us,快要缩减至1/7,显赫耕作了模子推感性能。
带宽方面,Ring算法与FC8算法驱散相配,以Ring算法为例,摩尔线程把FC8拆成了7个通讯环,每个通讯环诱导通讯Kernel的优化,基于MTLink2.0 + FC8拓扑,节点内充分诈欺全互联的拓扑上风,可作念到单机8卡All Reduce带宽诈欺率接近85%,与国际第一的厂商在软件驱散上对皆,罢了高效的Scale-up通讯。
高效Scale-out跨节点通讯方面,摩尔线程诱导通讯库作念了网卡拓扑感知与自稳健优化,每个GPU都能在PCIe拓扑上找到延伸和带宽驱散最高的网卡端口进行RDMA通讯,还额外竖立了一个插件Smart NIC Adaptor,在竖立4张双口网卡时,可罢了和8张单口网卡相同的RDMA通讯驱散。
经测试,其All Reduce带宽不错作念到194GB/s,RDMA通讯带宽诈欺率达到97%,而一般RDMA通讯带宽诈欺率约在80%-85%。
除了延伸和带宽以外,摩尔线程还作念了异步通讯引擎的通讯优化。
MPC是野心中枢。传统作念法是通讯也走MPC,就要分走一部分的野心单位。ACE则不错把通讯部分卸载到单独的通讯引擎上,不跟MPC抢野心资源,同期在无数据依赖时皆备作念到overlap,通过优化,诱导MT Transformer Engine,在Llama模子上端到端野心通讯性能可耕作10%阁下。
三、基于FP8的国产万卡考试,摩尔线程软硬件若何撑起行业需求?
摩尔线程副总裁王华给基于FP8的国产万卡考试划了3个要点:
1、大模子考试需要更宏大的智算集群;2、低精度可灵验耕作考试驱散;3、可靠性对大范围考试至关要紧。
大模子需要大集群已是行业共鸣,毋庸赘述。
用更低精度的数据类型进行考试,相配于罢了了算力翻倍。精度训斥一半,能带来的上风是算力翻倍,显存占用、显存带宽、传输带宽消费减半。
但低精度替换只可部分进行,无法皆备替代。一些精度敏锐要领,如非线性函数/归一化操作,仍需保留高精度野心。
从期间演进来看,精度体式正沿着FP32→TF32→FP16/BF16→FP8的旅途发展。近两年,FP8考试期间得回多项发达。
DeepSeek-V3使用了FP8搀和精度考试,主要战略有:前向和后向传播的3次GEMM使用FP8,激活值的缓存和传输使用FP8,Embedding、激活函数等模块使用高精度浮点数,主权重、权重梯度、优化器景色使用高精度浮点数。
摩尔线程的全功能GPU,是当先支捏FP8的国产GPU,对FP8的考试提供了软硬件支捏,基于摩尔线程软件栈,凯旋复现了DeepSeek-V3满血版考试。
其软件栈开源了3个组件:
(1)提供MUSA后端加快支捏的Torch-MUSA:PyTorch的MUSA插件,最新版块当先在国产GPU上罢了了对FP8数据类型的竣工支捏。
(2)搀和并行考试框架MT-MegatronLM:支捏FP8搀和精度考试、高性能muDNN库和MCCL通讯库。
(3)MT-TransformerEngine:主要用于Transformer的高效考试和推理优化,支捏FP8搀和精度考试,通过算子和会、并行加快等期间耕作训推驱散。
经实验,基于摩尔线程KUAE集群,在Llama3 8B、Qwen、DeepSeek-V2 16B、DeepSeek-V3 30B上,接纳FP8搀和考试不错带来20%~30%的性能耕作,且引入FP8前后loss弧线基本一致。在接纳FP8考试方面,摩尔线程GPU野心卡与国际主流野心卡的精度对比基本吻合。
在Scaling Factor的选拔上,摩尔线程也作念了许多探索,举例:amax的统计信息标明,Per-Tensor的Scaling Factor适合接纳Delayed Scaling战略,而Per-Block则适合接纳JIT Scaling战略。
摩尔线程还用自家GPU野心卡作念了Smooth SwiGLU论文的复现,发现通过Smooth SwiGLU不错灵验训斥outlier的影响。
此外,摩尔线程开源的模拟仿真器Simumax可用于大范围集群考试,支捏多种并行战略、多种模子架构、各式优化战略以及并行战略、超参、优化战略的自动扫描。
终末,大范围集群考试的可靠性非常要紧。
摩尔线程作念了许多干系责任,进行全人命周期不断监控:
(1)考试查验(升空、飞翔、落地):升空查验是在考试运转前,对硬软件和通讯的查验,自动替换故障节点;飞翔查验中,发现考试亚健康问题;落地查验是停掉考试后,定位故障节点,提真金不怕火故障险阻文。
(2)慢节点探伤:分离式考试中慢节点会拖慢所有这个词考试的速率;升空查验阶段节点两两配对,查验小负载的奉行时分;考试阶段统计每个节点野心和通讯奉行的时分。
(3)容错考试:大范围考试场景使用无数节点,会导致考试故障率指数级升高;同步形状转成异步形状,单节点故障就不会影响举座考试;还有高效的故障发现与规复机制。
结语:国产AI野心基础设施,已具备范围化、高驱散、高可靠模子坐褥才能
摩尔线程以打造先进的“AI工场”为标的,凭借全功能GPU的通用野心才能、篡改的MUSA架构、优化的MUSA软件栈、自研的KUAE集群、零中断容错期间五大中枢要素,构建起高效的“AI工场”,为AI大模子考试提供了宏大而可靠的基础设施支捏。
“唯有这么的组合,才能确保每一个要领都作念到最好,100% X 100% X 100%,才能确保100%的凯旋率,亦然业界最好的驱散。”张建中说。
依托AI工场,摩尔线程凯旋构建起隐敝”考试-推理-部署”全经由的高效体系。这标识着国产野心基础设施,已具备撑捏AGI时期范围化、高驱散、高可靠模子坐褥的舛错才能。
从图形渲染基石到AI算力引擎开云体育,摩尔线程正以“KUAE+MUSA”为智算业务中枢,推进全功能GPU驱动的AI期间在物理仿真、AIGC、科学野心、具身智能、智能体、医疗影像分析、工业大模子等舛错畛域的应用与部署。
发布于:北京市