ChatPaper.aiChatPaper

Pangu Pro MoE: 효율적 희소성을 위한 그룹화 전문가 혼합 모델

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

May 27, 2025
저자: Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang
cs.AI

초록

대규모 언어 모델(Large Language Models)에서 전문가 혼합(Mixture of Experts, MoE)의 등장은 훨씬 더 많은 모델 파라미터 수와 학습 능력을 제공하면서도 실행 비용을 적게 유지할 수 있음을 약속합니다. 이는 각 입력 토큰에 대해 활성화되는 파라미터가 일부에 불과하기 때문입니다. 그러나 일반적으로 일부 전문가가 다른 전문가보다 훨씬 더 자주 활성화되는 현상이 관찰되며, 이는 여러 장치에서 전문가를 병렬로 실행할 때 시스템 비효율성을 초래합니다. 따라서 우리는 전문가 선택 과정에서 전문가를 그룹화하고, MoE보다 본질적으로 더 나은 전문가 작업 부하 균형을 제공하는 그룹화된 전문가 혼합(Mixture of Grouped Experts, MoGE)을 소개합니다. MoGE는 각 사전 정의된 전문가 그룹 내에서 동일한 수의 전문가를 활성화하도록 토큰을 제한합니다. 모델 실행이 여러 장치에 분산될 때, 이러한 아키텍처 설계는 장치 간의 계산 부하를 균형 있게 유지하여 특히 추론 단계에서 처리량을 크게 향상시킵니다. 더 나아가, 우리는 Ascend NPU에서 720억 개의 총 파라미터를 가진 MoGE 기반의 희소 모델인 Pangu Pro MoE를 구축했습니다. 이 중 각 토큰에 대해 160억 개의 파라미터가 활성화됩니다. Pangu Pro MoE의 구성은 Ascend 300I Duo와 800I A2를 위해 광범위한 시스템 시뮬레이션 연구를 통해 최적화되었습니다. 우리의 실험 결과, MoGE는 Ascend NPU에서 모델 학습과 추론 모두에 대해 더 나은 전문가 부하 균형과 더 효율적인 실행을 이끌어냄을 보여줍니다. Pangu Pro MoE의 추론 성능은 카드당 1148 토큰/초를 달성하며, 추론 가속(speculative acceleration)을 통해 카드당 1528 토큰/초로 더욱 향상될 수 있어, 비교 가능한 32B 및 72B Dense 모델을 능가합니다. 또한, Ascend 300I Duo에서 모델 추론에 대한 탁월한 비용 대비 성능 비율을 달성했습니다. 우리의 연구는 Ascend NPU가 대규모 병렬화를 통해 Pangu Pro MoE를 학습할 수 있으며, 이를 통해 100B 미만의 총 파라미터 클래스에서 선두 모델로 자리매김할 수 있음을 보여줍니다. 이는 GLM-Z1-32B 및 Qwen3-32B와 같은 유명한 오픈소스 모델을 능가하는 성능을 보입니다.
English
The surgence of Mixture of Experts (MoE) in Large Language Models promises a small price of execution cost for a much larger model parameter count and learning capacity, because only a small fraction of parameters are activated for each input token. However, it is commonly observed that some experts are activated far more often than others, leading to system inefficiency when running the experts on different devices in parallel. Therefore, we introduce Mixture of Grouped Experts (MoGE), which groups the experts during selection and balances the expert workload better than MoE in nature. It constrains tokens to activate an equal number of experts within each predefined expert group. When a model execution is distributed on multiple devices, this architectural design ensures a balanced computational load across devices, significantly enhancing throughput, particularly for the inference phase. Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE with 72 billion total parameters, 16 billion of which are activated for each token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and 800I A2 through extensive system simulation studies. Our experiments indicate that MoGE indeed leads to better expert load balancing and more efficient execution for both model training and inference on Ascend NPUs. The inference performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further improved to 1528 tokens/s per card by speculative acceleration, outperforming comparable 32B and 72B Dense models. Furthermore, we achieve an excellent cost-to-performance ratio for model inference on Ascend 300I Duo. Our studies show that Ascend NPUs are capable of training Pangu Pro MoE with massive parallelization to make it a leading model within the sub-100B total parameter class, outperforming prominent open-source models like GLM-Z1-32B and Qwen3-32B.
PDF122June 30, 2025