Pangu Ultra : Repousser les limites des modèles de langage massivement denses sur les NPU AscendPangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend
NPUs
Nous présentons Pangu Ultra, un modèle de langage de grande taille (LLM) doté de 135 milliards de paramètres et de modules Transformer denses, entraîné sur des unités de traitement neuronal (NPU) Ascend. Bien que le domaine des LLM ait connu des avancées sans précédent ces dernières années en repoussant les limites d'échelle et de capacités des modèles, l'entraînement d'un modèle à si grande échelle reste confronté à des défis d'optimisation et de système majeurs. Pour stabiliser le processus d'entraînement, nous proposons une normalisation en sandwich à échelle de profondeur, qui élimine efficacement les pics de perte lors de l'entraînement de modèles profonds. Nous pré-entraînons notre modèle sur 13,2 billions de tokens diversifiés et de haute qualité, et renforçons ses capacités de raisonnement lors d'une phase de post-entraînement. Pour réaliser un entraînement à si grande échelle de manière efficace, nous utilisons 8 192 NPU Ascend avec une série d'optimisations système. Les évaluations sur plusieurs benchmarks variés montrent que Pangu Ultra repousse significativement l'état de l'art des LLM denses tels que Llama 405B et Mistral Large 2, et obtient même des résultats compétitifs avec DeepSeek-R1, dont la structure de modèle sparse contient bien plus de paramètres. Notre exploration démontre que les NPU Ascend sont capables d'entraîner efficacement des modèles denses de plus de 100 milliards de paramètres. Notre modèle et notre système seront disponibles pour nos clients commerciaux.