ChatPaper.aiChatPaper

Pangu Ultra: Llevando al límite los modelos de lenguaje densos a gran escala en NPUs Ascend

Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

April 10, 2025
Autores: Yichun Yin, Wenyong Huang, Kaikai Song, Yehui Tang, Xueyu Wu, Wei Guo, Peng Guo, Yaoyuan Wang, Xiaojun Meng, Yasheng Wang, Dong Li, Can Chen, Dandan Tu, Yin Li, Fisher Yu, Ruiming Tang, Yunhe Wang, Baojun Wang, Bin Wang, Bo Wang, Boxiao Liu, Changzheng Zhang, Duyu Tang, Fei Mi, Hui Jin, Jiansheng Wei, Jiarui Qin, Jinpeng Li, Jun Zhao, Liqun Deng, Lin Li, Minghui Xu, Naifu Zhang, Nianzu Zheng, Qiang Li, Rongju Ruan, Shengjun Cheng, Tianyu Guo, Wei He, Wei Li, Weiwen Liu, Wulong Liu, Xinyi Dai, Yonghan Dong, Yu Pan, Yue Li, Yufei Wang, Yujun Li, Yunsheng Ni, Zhe Liu, Zhenhe Zhang, Zhicheng Liu
cs.AI

Resumen

Presentamos Pangu Ultra, un Modelo de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) con 135 mil millones de parámetros y módulos densos de Transformer entrenados en Unidades de Procesamiento Neural (NPU) Ascend. Aunque el campo de los LLM ha experimentado avances sin precedentes en la escala y capacidad de estos modelos en los últimos años, entrenar un modelo de tal magnitud aún implica desafíos significativos de optimización y sistemas. Para estabilizar el proceso de entrenamiento, proponemos la normalización tipo sándwich escalada en profundidad, que elimina eficazmente los picos de pérdida durante el entrenamiento de modelos profundos. Preentrenamos nuestro modelo con 13,2 billones de tokens diversos y de alta calidad, y mejoramos aún más sus capacidades de razonamiento durante el posentrenamiento. Para llevar a cabo este entrenamiento a gran escala de manera eficiente, utilizamos 8.192 NPU Ascend con una serie de optimizaciones del sistema. Las evaluaciones en múltiples benchmarks diversos indican que Pangu Ultra avanza significativamente las capacidades de vanguardia de los LLM densos, como Llama 405B y Mistral Large 2, e incluso logra resultados competitivos con DeepSeek-R1, cuya estructura de modelo disperso contiene muchos más parámetros. Nuestra exploración demuestra que las NPU Ascend son capaces de entrenar de manera eficiente y efectiva modelos densos con más de 100 mil millones de parámetros. Nuestro modelo y sistema estarán disponibles para nuestros clientes comerciales.
English
We present Pangu Ultra, a Large Language Model (LLM) with 135 billion parameters and dense Transformer modules trained on Ascend Neural Processing Units (NPUs). Although the field of LLM has been witnessing unprecedented advances in pushing the scale and capability of LLM in recent years, training such a large-scale model still involves significant optimization and system challenges. To stabilize the training process, we propose depth-scaled sandwich normalization, which effectively eliminates loss spikes during the training process of deep models. We pre-train our model on 13.2 trillion diverse and high-quality tokens and further enhance its reasoning capabilities during post-training. To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1, whose sparse model structure contains much more parameters. Our exploration demonstrates that Ascend NPUs are capable of efficiently and effectively training dense models with more than 100 billion parameters. Our model and system will be available for our commercial customers.

Summary

AI-Generated Summary

PDF01April 11, 2025