Pangu Ultra : Repousser les limites des modèles de langage massivement denses sur les NPU Ascend
Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs
April 10, 2025
Auteurs: Yichun Yin, Wenyong Huang, Kaikai Song, Yehui Tang, Xueyu Wu, Wei Guo, Peng Guo, Yaoyuan Wang, Xiaojun Meng, Yasheng Wang, Dong Li, Can Chen, Dandan Tu, Yin Li, Fisher Yu, Ruiming Tang, Yunhe Wang, Baojun Wang, Bin Wang, Bo Wang, Boxiao Liu, Changzheng Zhang, Duyu Tang, Fei Mi, Hui Jin, Jiansheng Wei, Jiarui Qin, Jinpeng Li, Jun Zhao, Liqun Deng, Lin Li, Minghui Xu, Naifu Zhang, Nianzu Zheng, Qiang Li, Rongju Ruan, Shengjun Cheng, Tianyu Guo, Wei He, Wei Li, Weiwen Liu, Wulong Liu, Xinyi Dai, Yonghan Dong, Yu Pan, Yue Li, Yufei Wang, Yujun Li, Yunsheng Ni, Zhe Liu, Zhenhe Zhang, Zhicheng Liu
cs.AI
Résumé
Nous présentons Pangu Ultra, un modèle de langage de grande taille (LLM) doté de 135 milliards de paramètres et de modules Transformer denses, entraîné sur des unités de traitement neuronal (NPU) Ascend. Bien que le domaine des LLM ait connu des avancées sans précédent ces dernières années en repoussant les limites d'échelle et de capacités des modèles, l'entraînement d'un modèle à si grande échelle reste confronté à des défis d'optimisation et de système majeurs. Pour stabiliser le processus d'entraînement, nous proposons une normalisation en sandwich à échelle de profondeur, qui élimine efficacement les pics de perte lors de l'entraînement de modèles profonds. Nous pré-entraînons notre modèle sur 13,2 billions de tokens diversifiés et de haute qualité, et renforçons ses capacités de raisonnement lors d'une phase de post-entraînement. Pour réaliser un entraînement à si grande échelle de manière efficace, nous utilisons 8 192 NPU Ascend avec une série d'optimisations système. Les évaluations sur plusieurs benchmarks variés montrent que Pangu Ultra repousse significativement l'état de l'art des LLM denses tels que Llama 405B et Mistral Large 2, et obtient même des résultats compétitifs avec DeepSeek-R1, dont la structure de modèle sparse contient bien plus de paramètres. Notre exploration démontre que les NPU Ascend sont capables d'entraîner efficacement des modèles denses de plus de 100 milliards de paramètres. Notre modèle et notre système seront disponibles pour nos clients commerciaux.
English
We present Pangu Ultra, a Large Language Model (LLM) with 135 billion
parameters and dense Transformer modules trained on Ascend Neural Processing
Units (NPUs). Although the field of LLM has been witnessing unprecedented
advances in pushing the scale and capability of LLM in recent years, training
such a large-scale model still involves significant optimization and system
challenges. To stabilize the training process, we propose depth-scaled sandwich
normalization, which effectively eliminates loss spikes during the training
process of deep models. We pre-train our model on 13.2 trillion diverse and
high-quality tokens and further enhance its reasoning capabilities during
post-training. To perform such large-scale training efficiently, we utilize
8,192 Ascend NPUs with a series of system optimizations. Evaluations on
multiple diverse benchmarks indicate that Pangu Ultra significantly advances
the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral
Large 2, and even achieves competitive results with DeepSeek-R1, whose sparse
model structure contains much more parameters. Our exploration demonstrates
that Ascend NPUs are capable of efficiently and effectively training dense
models with more than 100 billion parameters. Our model and system will be
available for our commercial customers.Summary
AI-Generated Summary