Pangu Pro MoE: Mengsel van Gegroepeerde Experts voor Efficiënte Sparsheid
Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity
May 27, 2025
Auteurs: Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang
cs.AI
Samenvatting
De opkomst van Mixture of Experts (MoE) in grote taalmodel(len) belooft een lage uitvoeringskosten voor een veel groter aantal modelparameters en leercapaciteit, omdat slechts een kleine fractie van de parameters wordt geactiveerd voor elk invoertoken. Het wordt echter vaak waargenomen dat sommige experts veel vaker worden geactiveerd dan andere, wat leidt tot systeeminefficiëntie wanneer de experts parallel op verschillende apparaten worden uitgevoerd. Daarom introduceren we Mixture of Grouped Experts (MoGE), waarbij de experts tijdens de selectie worden gegroepeerd en de werklast van de experts van nature beter wordt verdeeld dan bij MoE. Het beperkt tokens om een gelijk aantal experts binnen elke vooraf gedefinieerde expertgroep te activeren. Wanneer een modelexecutie wordt verdeeld over meerdere apparaten, zorgt dit architectonische ontwerp voor een gebalanceerde rekenbelasting over de apparaten, wat de doorvoer aanzienlijk verbetert, vooral tijdens de inferentiefase. Verder bouwen we Pangu Pro MoE op Ascend NPU's, een spaarzaam model gebaseerd op MoGE met in totaal 72 miljard parameters, waarvan 16 miljard worden geactiveerd voor elk token. De configuratie van Pangu Pro MoE is geoptimaliseerd voor Ascend 300I Duo en 800I A2 door uitgebreide systeemsimulatiestudies. Onze experimenten tonen aan dat MoGE inderdaad leidt tot een betere belansering van de expertbelasting en efficiëntere uitvoering voor zowel modeltraining als inferentie op Ascend NPU's. De inferentieprestaties van Pangu Pro MoE bereiken 1148 tokens/s per kaart en kunnen verder worden verbeterd tot 1528 tokens/s per kaart door speculatieve versnelling, wat beter presteert dan vergelijkbare 32B en 72B Dense-modellen. Bovendien bereiken we een uitstekende kosten-prestatieverhouding voor modelinferentie op Ascend 300I Duo. Onze studies tonen aan dat Ascend NPU's in staat zijn om Pangu Pro MoE te trainen met massale parallelisatie, waardoor het een toonaangevend model wordt binnen de sub-100B totale parameterklasse, dat prominente open-source modellen zoals GLM-Z1-32B en Qwen3-32B overtreft.
English
The surgence of Mixture of Experts (MoE) in Large Language Models promises a
small price of execution cost for a much larger model parameter count and
learning capacity, because only a small fraction of parameters are activated
for each input token. However, it is commonly observed that some experts are
activated far more often than others, leading to system inefficiency when
running the experts on different devices in parallel. Therefore, we introduce
Mixture of Grouped Experts (MoGE), which groups the experts during selection
and balances the expert workload better than MoE in nature. It constrains
tokens to activate an equal number of experts within each predefined expert
group. When a model execution is distributed on multiple devices, this
architectural design ensures a balanced computational load across devices,
significantly enhancing throughput, particularly for the inference phase.
Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE
with 72 billion total parameters, 16 billion of which are activated for each
token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and
800I A2 through extensive system simulation studies. Our experiments indicate
that MoGE indeed leads to better expert load balancing and more efficient
execution for both model training and inference on Ascend NPUs. The inference
performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further
improved to 1528 tokens/s per card by speculative acceleration, outperforming
comparable 32B and 72B Dense models. Furthermore, we achieve an excellent
cost-to-performance ratio for model inference on Ascend 300I Duo. Our studies
show that Ascend NPUs are capable of training Pangu Pro MoE with massive
parallelization to make it a leading model within the sub-100B total parameter
class, outperforming prominent open-source models like GLM-Z1-32B and
Qwen3-32B.