Pangu Pro MoE: Mistura de Especialistas Agrupados para Eficiência em Esparsidade
Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity
May 27, 2025
Autores: Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang
cs.AI
Resumo
O surgimento da Mistura de Especialistas (MoE) em Modelos de Linguagem de Grande Escala promete um custo de execução reduzido para uma contagem de parâmetros e capacidade de aprendizado muito maior, uma vez que apenas uma pequena fração dos parâmetros é ativada para cada token de entrada. No entanto, é comumente observado que alguns especialistas são ativados com muito mais frequência do que outros, levando à ineficiência do sistema ao executar os especialistas em diferentes dispositivos em paralelo. Portanto, introduzimos a Mistura de Especialistas Agrupados (MoGE), que agrupa os especialistas durante a seleção e equilibra a carga de trabalho dos especialistas de forma mais eficiente do que o MoE por natureza. Ele restringe os tokens a ativar um número igual de especialistas dentro de cada grupo de especialistas predefinido. Quando a execução de um modelo é distribuída em vários dispositivos, esse design arquitetônico garante uma carga computacional equilibrada entre os dispositivos, aumentando significativamente a taxa de transferência, especialmente na fase de inferência. Além disso, construímos o Pangu Pro MoE em NPUs Ascend, um modelo esparso baseado em MoGE com 72 bilhões de parâmetros totais, dos quais 16 bilhões são ativados para cada token. A configuração do Pangu Pro MoE é otimizada para o Ascend 300I Duo e 800I A2 por meio de extensos estudos de simulação de sistema. Nossos experimentos indicam que o MoGE realmente leva a um melhor balanceamento de carga dos especialistas e a uma execução mais eficiente tanto para o treinamento quanto para a inferência do modelo em NPUs Ascend. O desempenho de inferência do Pangu Pro MoE atinge 1148 tokens/s por placa e pode ser ainda melhorado para 1528 tokens/s por placa com aceleração especulativa, superando modelos Densos comparáveis de 32B e 72B. Além disso, alcançamos uma excelente relação custo-desempenho para a inferência de modelos no Ascend 300I Duo. Nossos estudos mostram que as NPUs Ascend são capazes de treinar o Pangu Pro MoE com massiva paralelização, tornando-o um modelo líder na classe de menos de 100B de parâmetros totais, superando modelos de código aberto proeminentes como GLM-Z1-32B e Qwen3-32B.
English
The surgence of Mixture of Experts (MoE) in Large Language Models promises a
small price of execution cost for a much larger model parameter count and
learning capacity, because only a small fraction of parameters are activated
for each input token. However, it is commonly observed that some experts are
activated far more often than others, leading to system inefficiency when
running the experts on different devices in parallel. Therefore, we introduce
Mixture of Grouped Experts (MoGE), which groups the experts during selection
and balances the expert workload better than MoE in nature. It constrains
tokens to activate an equal number of experts within each predefined expert
group. When a model execution is distributed on multiple devices, this
architectural design ensures a balanced computational load across devices,
significantly enhancing throughput, particularly for the inference phase.
Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE
with 72 billion total parameters, 16 billion of which are activated for each
token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and
800I A2 through extensive system simulation studies. Our experiments indicate
that MoGE indeed leads to better expert load balancing and more efficient
execution for both model training and inference on Ascend NPUs. The inference
performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further
improved to 1528 tokens/s per card by speculative acceleration, outperforming
comparable 32B and 72B Dense models. Furthermore, we achieve an excellent
cost-to-performance ratio for model inference on Ascend 300I Duo. Our studies
show that Ascend NPUs are capable of training Pangu Pro MoE with massive
parallelization to make it a leading model within the sub-100B total parameter
class, outperforming prominent open-source models like GLM-Z1-32B and
Qwen3-32B.