Pangu Pro MoE: 効率的なスパース性のためのグループ化エキスパートの混合
Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity
May 27, 2025
著者: Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang
cs.AI
要旨
大規模言語モデルにおけるMixture of Experts(MoE)の台頭は、実行コストを抑えつつ、はるかに大きなモデルパラメータ数と学習能力を実現することを約束します。これは、各入力トークンに対して活性化されるパラメータがごく一部であるためです。しかし、一部のエキスパートが他のエキスパートよりもはるかに頻繁に活性化されることが一般的に観察されており、異なるデバイス上でエキスパートを並列実行する際にシステムの非効率性を引き起こします。そこで、我々はMixture of Grouped Experts(MoGE)を導入します。MoGEは、エキスパート選択時にエキスパートをグループ化し、MoEよりも本質的にエキスパートのワークロードをバランスよく分散します。これにより、各事前定義されたエキスパートグループ内で、トークンが等しい数のエキスパートを活性化するように制約されます。モデル実行が複数のデバイスに分散される場合、このアーキテクチャ設計により、デバイス間の計算負荷が均等化され、特に推論フェーズでのスループットが大幅に向上します。さらに、我々はAscend NPU上でPangu Pro MoEを構築しました。これはMoGEに基づくスパースモデルで、総パラメータ数は720億、各トークンに対して160億のパラメータが活性化されます。Pangu Pro MoEの構成は、Ascend 300I Duoおよび800I A2向けに、広範なシステムシミュレーション研究を通じて最適化されています。我々の実験結果は、MoGEがAscend NPU上でのモデル学習および推論において、より良いエキスパート負荷分散と効率的な実行を実現することを示しています。Pangu Pro MoEの推論性能は、1カードあたり1148トークン/秒を達成し、推測的加速により1カードあたり1528トークン/秒まで向上し、同等の32Bおよび72B Denseモデルを上回ります。さらに、Ascend 300I Duoでのモデル推論において、優れたコストパフォーマンス比を実現しました。我々の研究は、Ascend NPUが大規模な並列化によりPangu Pro MoEを学習し、総パラメータ数100B未満のクラスにおいてリーディングモデルとなることを可能にし、GLM-Z1-32BやQwen3-32Bなどの著名なオープンソースモデルを凌駕することを示しています。
English
The surgence of Mixture of Experts (MoE) in Large Language Models promises a
small price of execution cost for a much larger model parameter count and
learning capacity, because only a small fraction of parameters are activated
for each input token. However, it is commonly observed that some experts are
activated far more often than others, leading to system inefficiency when
running the experts on different devices in parallel. Therefore, we introduce
Mixture of Grouped Experts (MoGE), which groups the experts during selection
and balances the expert workload better than MoE in nature. It constrains
tokens to activate an equal number of experts within each predefined expert
group. When a model execution is distributed on multiple devices, this
architectural design ensures a balanced computational load across devices,
significantly enhancing throughput, particularly for the inference phase.
Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE
with 72 billion total parameters, 16 billion of which are activated for each
token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and
800I A2 through extensive system simulation studies. Our experiments indicate
that MoGE indeed leads to better expert load balancing and more efficient
execution for both model training and inference on Ascend NPUs. The inference
performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further
improved to 1528 tokens/s per card by speculative acceleration, outperforming
comparable 32B and 72B Dense models. Furthermore, we achieve an excellent
cost-to-performance ratio for model inference on Ascend 300I Duo. Our studies
show that Ascend NPUs are capable of training Pangu Pro MoE with massive
parallelization to make it a leading model within the sub-100B total parameter
class, outperforming prominent open-source models like GLM-Z1-32B and
Qwen3-32B.