Pangu Pro MoE : Mélange d'experts groupés pour une parcimonie efficace
Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity
May 27, 2025
Auteurs: Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang
cs.AI
Résumé
L'émergence des Mixtures of Experts (MoE) dans les grands modèles de langage promet un faible coût d'exécution pour un nombre de paramètres et une capacité d'apprentissage bien plus importants, car seule une petite fraction des paramètres est activée pour chaque token d'entrée. Cependant, il est fréquemment observé que certains experts sont activés beaucoup plus souvent que d'autres, ce qui entraîne une inefficacité du système lors de l'exécution parallèle des experts sur différents dispositifs. Par conséquent, nous introduisons la Mixture of Grouped Experts (MoGE), qui regroupe les experts lors de la sélection et équilibre naturellement mieux la charge de travail des experts que le MoE. Elle contraint les tokens à activer un nombre égal d'experts au sein de chaque groupe d'experts prédéfini. Lorsque l'exécution d'un modèle est distribuée sur plusieurs dispositifs, cette conception architecturale garantit une charge de calcul équilibrée entre les dispositifs, améliorant significativement le débit, en particulier pour la phase d'inférence. De plus, nous avons développé Pangu Pro MoE sur les NPU Ascend, un modèle sparse basé sur MoGE avec 72 milliards de paramètres au total, dont 16 milliards sont activés pour chaque token. La configuration de Pangu Pro MoE est optimisée pour les Ascend 300I Duo et 800I A2 grâce à des études approfondies de simulation système. Nos expériences indiquent que MoGE conduit effectivement à un meilleur équilibrage de la charge des experts et à une exécution plus efficace, tant pour l'entraînement que pour l'inférence du modèle sur les NPU Ascend. Les performances d'inférence de Pangu Pro MoE atteignent 1148 tokens/s par carte et peuvent être encore améliorées à 1528 tokens/s par carte grâce à l'accélération spéculative, surpassant les modèles Dense comparables de 32B et 72B. De plus, nous obtenons un excellent rapport coût-performance pour l'inférence du modèle sur l'Ascend 300I Duo. Nos études montrent que les NPU Ascend sont capables d'entraîner Pangu Pro MoE avec une parallélisation massive, en faisant un modèle de premier plan dans la classe des modèles à moins de 100 milliards de paramètres, surpassant des modèles open-source renommés comme GLM-Z1-32B et Qwen3-32B.
English
The surgence of Mixture of Experts (MoE) in Large Language Models promises a
small price of execution cost for a much larger model parameter count and
learning capacity, because only a small fraction of parameters are activated
for each input token. However, it is commonly observed that some experts are
activated far more often than others, leading to system inefficiency when
running the experts on different devices in parallel. Therefore, we introduce
Mixture of Grouped Experts (MoGE), which groups the experts during selection
and balances the expert workload better than MoE in nature. It constrains
tokens to activate an equal number of experts within each predefined expert
group. When a model execution is distributed on multiple devices, this
architectural design ensures a balanced computational load across devices,
significantly enhancing throughput, particularly for the inference phase.
Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE
with 72 billion total parameters, 16 billion of which are activated for each
token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and
800I A2 through extensive system simulation studies. Our experiments indicate
that MoGE indeed leads to better expert load balancing and more efficient
execution for both model training and inference on Ascend NPUs. The inference
performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further
improved to 1528 tokens/s per card by speculative acceleration, outperforming
comparable 32B and 72B Dense models. Furthermore, we achieve an excellent
cost-to-performance ratio for model inference on Ascend 300I Duo. Our studies
show that Ascend NPUs are capable of training Pangu Pro MoE with massive
parallelization to make it a leading model within the sub-100B total parameter
class, outperforming prominent open-source models like GLM-Z1-32B and
Qwen3-32B.