Pangu Pro MoE: Miscela di Esperti Raggruppati per un'Efficiente Sparsità
Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity
May 27, 2025
Autori: Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang
cs.AI
Abstract
L'emergenza della Mixture of Experts (MoE) nei Large Language Models promette un costo di esecuzione ridotto per un numero di parametri del modello molto più elevato e una maggiore capacità di apprendimento, poiché solo una piccola frazione dei parametri viene attivata per ogni token di input. Tuttavia, è comunemente osservato che alcuni esperti vengono attivati molto più frequentemente di altri, portando a inefficienze del sistema quando gli esperti vengono eseguiti su dispositivi diversi in parallelo. Pertanto, introduciamo la Mixture of Grouped Experts (MoGE), che raggruppa gli esperti durante la selezione e bilancia il carico di lavoro degli esperti in modo più naturale rispetto alla MoE. Questo approccio vincola i token ad attivare un numero uguale di esperti all'interno di ciascun gruppo di esperti predefinito. Quando l'esecuzione di un modello è distribuita su più dispositivi, questo design architetturale garantisce un carico computazionale bilanciato tra i dispositivi, migliorando significativamente la velocità di elaborazione, in particolare durante la fase di inferenza. Inoltre, abbiamo sviluppato Pangu Pro MoE su Ascend NPU, un modello sparso basato su MoGE con un totale di 72 miliardi di parametri, di cui 16 miliardi vengono attivati per ogni token. La configurazione di Pangu Pro MoE è ottimizzata per Ascend 300I Duo e 800I A2 attraverso ampi studi di simulazione del sistema. I nostri esperimenti indicano che MoGE porta effettivamente a un migliore bilanciamento del carico degli esperti e a un'esecuzione più efficiente sia per l'addestramento che per l'inferenza del modello su Ascend NPU. Le prestazioni di inferenza di Pangu Pro MoE raggiungono 1148 token/s per scheda e possono essere ulteriormente migliorate a 1528 token/s per scheda grazie all'accelerazione speculativa, superando modelli Dense comparabili da 32B e 72B. Inoltre, otteniamo un eccellente rapporto costo-prestazioni per l'inferenza del modello su Ascend 300I Duo. I nostri studi dimostrano che le Ascend NPU sono in grado di addestrare Pangu Pro MoE con una massiccia parallelizzazione, rendendolo un modello leader nella classe con meno di 100 miliardi di parametri totali, superando modelli open-source di rilievo come GLM-Z1-32B e Qwen3-32B.
English
The surgence of Mixture of Experts (MoE) in Large Language Models promises a
small price of execution cost for a much larger model parameter count and
learning capacity, because only a small fraction of parameters are activated
for each input token. However, it is commonly observed that some experts are
activated far more often than others, leading to system inefficiency when
running the experts on different devices in parallel. Therefore, we introduce
Mixture of Grouped Experts (MoGE), which groups the experts during selection
and balances the expert workload better than MoE in nature. It constrains
tokens to activate an equal number of experts within each predefined expert
group. When a model execution is distributed on multiple devices, this
architectural design ensures a balanced computational load across devices,
significantly enhancing throughput, particularly for the inference phase.
Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE
with 72 billion total parameters, 16 billion of which are activated for each
token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and
800I A2 through extensive system simulation studies. Our experiments indicate
that MoGE indeed leads to better expert load balancing and more efficient
execution for both model training and inference on Ascend NPUs. The inference
performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further
improved to 1528 tokens/s per card by speculative acceleration, outperforming
comparable 32B and 72B Dense models. Furthermore, we achieve an excellent
cost-to-performance ratio for model inference on Ascend 300I Duo. Our studies
show that Ascend NPUs are capable of training Pangu Pro MoE with massive
parallelization to make it a leading model within the sub-100B total parameter
class, outperforming prominent open-source models like GLM-Z1-32B and
Qwen3-32B.