ChatPaper.aiChatPaper

Pangu Pro MoE: Mezcla de Expertos Agrupados para una Escasez Eficiente

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

May 27, 2025
Autores: Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang
cs.AI

Resumen

El surgimiento de la Mezcla de Expertos (MoE) en los Modelos de Lenguaje de Gran Escala promete un costo de ejecución reducido para un número mucho mayor de parámetros del modelo y capacidad de aprendizaje, ya que solo se activa una pequeña fracción de los parámetros para cada token de entrada. Sin embargo, es común observar que algunos expertos se activan con mucha más frecuencia que otros, lo que genera ineficiencias en el sistema al ejecutar los expertos en diferentes dispositivos en paralelo. Por ello, presentamos la Mezcla de Expertos Agrupados (MoGE), que agrupa a los expertos durante la selección y equilibra mejor la carga de trabajo de los expertos en comparación con MoE de manera natural. Este enfoque restringe a los tokens a activar un número igual de expertos dentro de cada grupo de expertos predefinido. Cuando la ejecución del modelo se distribuye en múltiples dispositivos, este diseño arquitectónico asegura una carga computacional equilibrada entre los dispositivos, mejorando significativamente el rendimiento, especialmente en la fase de inferencia. Además, construimos Pangu Pro MoE en las NPUs Ascend, un modelo disperso basado en MoGE con 72 mil millones de parámetros totales, de los cuales 16 mil millones se activan para cada token. La configuración de Pangu Pro MoE está optimizada para las plataformas Ascend 300I Duo y 800I A2 mediante extensos estudios de simulación del sistema. Nuestros experimentos indican que MoGE efectivamente conduce a un mejor equilibrio de carga entre los expertos y una ejecución más eficiente tanto en el entrenamiento como en la inferencia del modelo en las NPUs Ascend. El rendimiento de inferencia de Pangu Pro MoE alcanza 1148 tokens/s por tarjeta y puede mejorarse aún más a 1528 tokens/s por tarjeta mediante aceleración especulativa, superando a modelos densos comparables de 32B y 72B. Además, logramos una excelente relación costo-rendimiento para la inferencia del modelo en Ascend 300I Duo. Nuestros estudios demuestran que las NPUs Ascend son capaces de entrenar Pangu Pro MoE con una masiva paralelización, posicionándolo como un modelo líder dentro de la clase de menos de 100B parámetros totales, superando a modelos de código abierto destacados como GLM-Z1-32B y Qwen3-32B.
English
The surgence of Mixture of Experts (MoE) in Large Language Models promises a small price of execution cost for a much larger model parameter count and learning capacity, because only a small fraction of parameters are activated for each input token. However, it is commonly observed that some experts are activated far more often than others, leading to system inefficiency when running the experts on different devices in parallel. Therefore, we introduce Mixture of Grouped Experts (MoGE), which groups the experts during selection and balances the expert workload better than MoE in nature. It constrains tokens to activate an equal number of experts within each predefined expert group. When a model execution is distributed on multiple devices, this architectural design ensures a balanced computational load across devices, significantly enhancing throughput, particularly for the inference phase. Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE with 72 billion total parameters, 16 billion of which are activated for each token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and 800I A2 through extensive system simulation studies. Our experiments indicate that MoGE indeed leads to better expert load balancing and more efficient execution for both model training and inference on Ascend NPUs. The inference performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further improved to 1528 tokens/s per card by speculative acceleration, outperforming comparable 32B and 72B Dense models. Furthermore, we achieve an excellent cost-to-performance ratio for model inference on Ascend 300I Duo. Our studies show that Ascend NPUs are capable of training Pangu Pro MoE with massive parallelization to make it a leading model within the sub-100B total parameter class, outperforming prominent open-source models like GLM-Z1-32B and Qwen3-32B.
PDF122June 30, 2025