Pangu Pro MoE: Gemisch gruppierter Experten für effiziente Sparsity
Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity
May 27, 2025
Autoren: Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang
cs.AI
Zusammenfassung
Das Aufkommen von Mixture of Experts (MoE) in großen Sprachmodellen verspricht geringe Ausführungskosten bei einer deutlich höheren Anzahl von Modellparametern und Lernkapazität, da für jedes Eingabe-Token nur ein kleiner Teil der Parameter aktiviert wird. Es wird jedoch häufig beobachtet, dass einige Experten weitaus häufiger aktiviert werden als andere, was zu Systemineffizienzen führt, wenn die Experten parallel auf verschiedenen Geräten ausgeführt werden. Daher führen wir Mixture of Grouped Experts (MoGE) ein, das die Experten während der Auswahl gruppiert und die Arbeitslast der Experten von Natur aus besser ausbalanciert als MoE. Es schränkt Tokens darauf ein, eine gleiche Anzahl von Experten innerhalb jeder vordefinierten Expertengruppe zu aktivieren. Wenn die Modellausführung auf mehrere Geräte verteilt wird, stellt dieses Architekturdesign eine ausgewogene Rechenlast über die Geräte sicher und verbessert den Durchsatz erheblich, insbesondere für die Inferenzphase. Darüber hinaus entwickeln wir Pangu Pro MoE auf Ascend NPUs, ein sparsames Modell basierend auf MoGE mit insgesamt 72 Milliarden Parametern, von denen 16 Milliarden für jedes Token aktiviert werden. Die Konfiguration von Pangu Pro MoE wurde für Ascend 300I Duo und 800I A2 durch umfangreiche Systemsimulationsstudien optimiert. Unsere Experimente zeigen, dass MoGE tatsächlich zu einer besseren Ausbalancierung der Expertenlast und einer effizienteren Ausführung sowohl für das Modelltraining als auch für die Inferenz auf Ascend NPUs führt. Die Inferenzleistung von Pangu Pro MoE erreicht 1148 Tokens/s pro Karte und kann durch spekulative Beschleunigung auf 1528 Tokens/s pro Karte weiter verbessert werden, was vergleichbare 32B- und 72B-Dense-Modelle übertrifft. Darüber hinaus erreichen wir ein ausgezeichnetes Kosten-Leistungs-Verhältnis für die Modellinferenz auf Ascend 300I Duo. Unsere Studien zeigen, dass Ascend NPUs in der Lage sind, Pangu Pro MoE mit massiver Parallelisierung zu trainieren, um es zu einem führenden Modell innerhalb der Klasse mit weniger als 100 Milliarden Gesamtparametern zu machen, das bekannte Open-Source-Modelle wie GLM-Z1-32B und Qwen3-32B übertrifft.
English
The surgence of Mixture of Experts (MoE) in Large Language Models promises a
small price of execution cost for a much larger model parameter count and
learning capacity, because only a small fraction of parameters are activated
for each input token. However, it is commonly observed that some experts are
activated far more often than others, leading to system inefficiency when
running the experts on different devices in parallel. Therefore, we introduce
Mixture of Grouped Experts (MoGE), which groups the experts during selection
and balances the expert workload better than MoE in nature. It constrains
tokens to activate an equal number of experts within each predefined expert
group. When a model execution is distributed on multiple devices, this
architectural design ensures a balanced computational load across devices,
significantly enhancing throughput, particularly for the inference phase.
Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE
with 72 billion total parameters, 16 billion of which are activated for each
token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and
800I A2 through extensive system simulation studies. Our experiments indicate
that MoGE indeed leads to better expert load balancing and more efficient
execution for both model training and inference on Ascend NPUs. The inference
performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further
improved to 1528 tokens/s per card by speculative acceleration, outperforming
comparable 32B and 72B Dense models. Furthermore, we achieve an excellent
cost-to-performance ratio for model inference on Ascend 300I Duo. Our studies
show that Ascend NPUs are capable of training Pangu Pro MoE with massive
parallelization to make it a leading model within the sub-100B total parameter
class, outperforming prominent open-source models like GLM-Z1-32B and
Qwen3-32B.