Pangu Pro MoE: Смесь группированных экспертов для эффективной разреженности
Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity
May 27, 2025
Авторы: Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang
cs.AI
Аннотация
Появление архитектуры Mixture of Experts (MoE) в крупных языковых моделях обещает низкую стоимость выполнения при значительно большем количестве параметров модели и её обучающей способности, поскольку для каждого входного токена активируется лишь небольшая часть параметров. Однако часто наблюдается, что некоторые эксперты активируются гораздо чаще других, что приводит к неэффективности системы при параллельном выполнении экспертов на разных устройствах. Поэтому мы представляем Mixture of Grouped Experts (MoGE), которая группирует экспертов во время выбора и естественным образом лучше балансирует нагрузку между экспертами, чем MoE. Она ограничивает активацию токенов равным количеством экспертов внутри каждой предопределённой группы экспертов. Когда выполнение модели распределяется на несколько устройств, этот архитектурный подход обеспечивает сбалансированную вычислительную нагрузку между устройствами, значительно повышая пропускную способность, особенно на этапе вывода. Кроме того, мы создали Pangu Pro MoE на базе Ascend NPU — разреженную модель, основанную на MoGE, с общим количеством параметров 72 миллиарда, из которых 16 миллиардов активируются для каждого токена. Конфигурация Pangu Pro MoE оптимизирована для Ascend 300I Duo и 800I A2 с помощью обширных исследований системного моделирования. Наши эксперименты показывают, что MoGE действительно приводит к лучшему балансированию нагрузки между экспертами и более эффективному выполнению как для обучения, так и для вывода модели на Ascend NPU. Производительность вывода Pangu Pro MoE достигает 1148 токенов/с на карту и может быть дополнительно увеличена до 1528 токенов/с на карту с помощью спекулятивного ускорения, превосходя сопоставимые плотные модели с 32B и 72B параметрами. Кроме того, мы достигаем отличного соотношения стоимости и производительности для вывода модели на Ascend 300I Duo. Наши исследования показывают, что Ascend NPU способны обучать Pangu Pro MoE с массовым параллелизмом, что делает её ведущей моделью в классе с общим количеством параметров менее 100B, превосходя известные открытые модели, такие как GLM-Z1-32B и Qwen3-32B.
English
The surgence of Mixture of Experts (MoE) in Large Language Models promises a
small price of execution cost for a much larger model parameter count and
learning capacity, because only a small fraction of parameters are activated
for each input token. However, it is commonly observed that some experts are
activated far more often than others, leading to system inefficiency when
running the experts on different devices in parallel. Therefore, we introduce
Mixture of Grouped Experts (MoGE), which groups the experts during selection
and balances the expert workload better than MoE in nature. It constrains
tokens to activate an equal number of experts within each predefined expert
group. When a model execution is distributed on multiple devices, this
architectural design ensures a balanced computational load across devices,
significantly enhancing throughput, particularly for the inference phase.
Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE
with 72 billion total parameters, 16 billion of which are activated for each
token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and
800I A2 through extensive system simulation studies. Our experiments indicate
that MoGE indeed leads to better expert load balancing and more efficient
execution for both model training and inference on Ascend NPUs. The inference
performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further
improved to 1528 tokens/s per card by speculative acceleration, outperforming
comparable 32B and 72B Dense models. Furthermore, we achieve an excellent
cost-to-performance ratio for model inference on Ascend 300I Duo. Our studies
show that Ascend NPUs are capable of training Pangu Pro MoE with massive
parallelization to make it a leading model within the sub-100B total parameter
class, outperforming prominent open-source models like GLM-Z1-32B and
Qwen3-32B.