华为盘古大模型,首次开源!
模型名为盘古 Pro MoE,参数量 72B,其中激活参数量为 16B,中英文理解和推理能力都不输给 32B 密集模型。
而且盘古 Pro MoE 还提出了全新的 MoE 架构,专门针对昇腾芯片做了适配,在昇腾 800I A2 上实现了单卡 1148 tokens 每秒的推理吞吐性能。
中英两个版本的技术报告均已发布,相关话题在微博上成了讨论热点。
并且原本发布在国内平台的模型权重,也迅速被第三方搬运到了 Hugging Face。
那么,盘古 Pro MoE 的具体表现究竟怎样呢?
性能不输 32B 密集模型
盘古 Pro MoE 的总参数量为 72B,包含 64 个路由专家和 4 个共享专家,激活参数量 16B,占总参数量的 22.2%。
但在中文、英文、数学、代码等一系列测试中,盘古 Pro MoE 都能和 32B 的密集模型杀得有来有回。
英文方面,盘古 Pro MoE 在 MMLU-PRO 上以 82.6 分的成绩超越了 Qwen3-32B、Gemma3-27B 等密集模型,以及同样采用 MoE 架构的 Llama4-Scout 。
以及在阅读理解领域,盘古 Pro MoE 在 DROP 测试中获得了 91.2 分,与当前最优的 Qwen3-32B(91.3)基本持平。
中文方面,盘古 Pro MoE 在知识密集型评测 C-Eval(EM)中以 91.1 的成绩超越 Qwen3-32B(89.2)等现有百亿参数量级最优模型。
针对中文常识推理任务,盘古 Pro MoE 在 CLUEWSC(EM)基准上取得了 94.7 分,略胜于 Qwen3-32B 并明显领先于 Gemma3-27B(91.3)。
此外,盘古 Pro MoE 还展现出了优异的逻辑推理能力。
例如在代码生成方面, 其在 MBPP+(Pass@1)的成绩达到 80.2,与 Qwen3-32B(82.0)处于同一性能区间;
数学推理任务中,盘古 Pro MoE 也以 96.8 分的成绩在 MATH-500 测试中超越 Qwen3-32B(96.6),前者的 CNMO2024 基准 Pass@1 指标 70.8 同样略胜于后者(70.4)。
特别地,在 SuperGPQA 等复杂问题解答基准中,盘古 Pro MoE 取得了 54.8 分的 Pass@1 得分,显著优于 Qwen3-32B(49.8)等密集模型。
并且在 W8A8(权重和激活值均为 8bit)量化配置下,盘古 Pro MoE 的精度几乎没有损失,即便使用 W4A8(权重 4bit 激活值 8bit)量化,精度损失仍在可接受范围内。
此外,盘古 Pro MoE 还展现出来非常高的推理效率。
例如在采用双卡部署策略的昇腾 800I A2 上,盘古 Pro MoE 经过 W8A8 量化配置后, Prefill 阶段 2K 序列长度输入场景下,模型的平均单卡输入吞吐可达每秒 4828tokens,相比 72B 和 32B 密集模型分别提升了 203% 和 42%。
Decoder 阶段(4 卡部署,W8A8 量化),在大并发场景下,2K 序列输入下平均单卡输出吞吐可达每秒 1148token,相较 72B 和 32B 密集模型吞吐性能分别高出 97% 和 18%。
而之所以能拥有这样的性能和效率,是因为盘古 Pro MoE 从模型架构到训推设施,都针对昇腾芯片进行了专门优化。
提出 MoE 模型新架构,高效适配昇腾集群
盘古 Pro MoE 采用了独创的分组混合专家模型(Mixture of Grouped Experts,MoGE)架构,主要目的是从路由机制上实现跨设备的计算负载均衡。
MoGE 的核心思想,是将所有专家均匀地划分为若干组,每组分配到一个具体的设备上,并在路由过程中强制每个 token 从各组中选择相同数量的专家进行激活。
传统的 MoE 通常由多个不同的专家网络组成,在运行过程中会通过 softmax 计算来进行专家的选择,但其中的 Top-K 路由机制并未对被选中专家的位置进行约束,导致出现专家过于集中的情况,从而导致负载不均衡。
当某些设备上的专家被频繁激活时,这些设备需处理更多的 token,而其他设备则可能处于空闲或低负载的状态,导致系统整体的推理速度被最慢(最繁忙)设备限制,出现计算资源利用效率下降、整体推理时延显著增加的情况。
为此,MoGE 创新性地采用了分组均衡路由策略以实现设备间负载均衡,其核心思想是将每个 token 的激活专家在所有设备之间进行等量分配。
具体来说,MoGE 通过两个策略来实现设备间的负载均衡——
专家分组(Expert Partitioning):将所有的 N 个专家确定性地划分为 M 个互不重叠的组,每组专家 N/M 个专家,同一组专家通常被分配到一个特定的计算设备上;
分组均衡路由(Group-Balanced Routing):对于每个输入,路由机制会从每组专家中固定激活 K/M 个专家,此时每个 token 激活的专家总数仍为 K,但是每个设备上的被激活专家的数量被严格限定。
另外,盘古 Pro MoE 还引入了均衡辅助损失,以便确保路由模块能够在每一个组内合理地调节专家的负载。
这样的架构,与昇腾 NPU 的分布式部署方式,形成了有效协同。
除了模型架构之外,盘古 Pro MoE 的训推设施也针对昇腾集群做了专门适配。
专为昇腾优化的训推设施
训练层面,盘古大模型团队对盘古 Ultra MoE 中采用的加速技术进行了进一步的优化。
这些优化包括通信开销更小的分层 EP All-to-All 通信、自适应流水掩盖机制(Adaptive Pipeline Overlap Mechanism)中更细粒度的算子调度和更高效的掩盖, 以及在内存优化策略中新增的细粒度可配置重计算和 swap 模块。
这些优化策略不仅提高了盘古 Ultra MoE 的模型算力利用率(MFU),而且也能够适配到盘古 Pro MoE,实现了 35% 的 MFU 相对提升。
推理过程中涉及的策略就更多了。
首先是分层混合并行,盘古 Pro MoE 中总参数的 95% 为稀疏专家模块,注意力模块仅占 5%。基于模型结构与昇腾硬件系统的联合优化,盘古团队提出了一种分层混合并行的分布式推理方案,通过消除冗余的计算和通信开销实现最优计算效率。
基于优化后的分层混合并行策略,盘古大模型团队进一步对相关通信操作展开优化,以最小化计算和通信开销。
在并行与通信优化的基础上,团队还通过相邻通信流与计算流之间的流水掩盖,进一步降低了通信延迟。
第二个方面,是量化压缩,具体可以分为专家感知量化和 KV 缓存量化。
对 MoE 模型进行量化会因其稀疏且动态的计算模式而带来特殊的问题,于是盘古团队提出了一种专家感知后训练量化方法。
该方法首先采用专家感知的平滑聚合策略来抑制 MoE 中各专家的激活离群值,然后利用一种路由输出分布一致性校准策略确保量化后专家选择的一致性,最后再用专家级校准数据均衡策略平衡不同专家间的校准数据。
KV 缓存压缩对于优化推理基础架构的效率——尤其是在吞吐量、上下文长度和 batch size 大小可扩展性方面——至关重要,盘古 Pro MoE 通过 KVTuner 算法实现了推理效率与模型精度之间的优化平衡。
最后一个方面,是算子融合。
盘古团队提出了基于昇腾硬件优化的融合注意力算子 MulAttention,通过大数据包 KV 传输策略提升内存带宽利用率,实现了 4.5 倍的端到端注意力加速,并显著提高了硬件利用率。
另外在高并发场景中,分组矩阵乘法(GMM)算子占端到端延迟的 50% 以上,而动态负载进一步影响了计算效率。为此,盘古团队提出了一种针对昇腾平台优化的 GMM 加速技术—— SwiftGMM。
SwiftGMM 引入了一种适用于动态计算负载的分块缓存策略,通过历史性能分析数据预测最优分块参数,从而减少因负载不均衡导致的频繁的重新计算开销。
实验表明,SwiftGMM 的 MTE2 利用率最高可达 95%,使算子性能接近权重数据传输带宽限制的理论上限。
当然,盘古大模型的背后还有更多的技术细节,感兴趣的话可以到技术报告中一探究竟 ~
模型权重(GitCode):
https://gitcode.com/ascend-tribe/pangu-pro-moe-model/tree/main
模型权重(HuggingFace 搬运):
https://huggingface.co/IntervitensInc/pangu-pro-moe-model
技术报告(中文):
https://gitcode.com/ascend-tribe/pangu-pro-moe/blob/main/Pangu-Pro-MoE-CN-Report.pdf
技术报告(英文):
https://arxiv.org/abs/2505.21411
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
� � 最新最专业的 AI 产品信息及分析 � �
� � 不定期发放的热门产品内测码 � �
� � 内部专属内容与专业讨论 � �
� � 点亮星标 � �
科技前沿进展每日见
配资公司合作提示:文章来自网络,不代表本站观点。