ChatPaper.aiChatPaper

판구 울트라: 어센드 NPU에서 고밀도 대규모 언어 모델의 한계를 넘어서다

Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

April 10, 2025
저자: Yichun Yin, Wenyong Huang, Kaikai Song, Yehui Tang, Xueyu Wu, Wei Guo, Peng Guo, Yaoyuan Wang, Xiaojun Meng, Yasheng Wang, Dong Li, Can Chen, Dandan Tu, Yin Li, Fisher Yu, Ruiming Tang, Yunhe Wang, Baojun Wang, Bin Wang, Bo Wang, Boxiao Liu, Changzheng Zhang, Duyu Tang, Fei Mi, Hui Jin, Jiansheng Wei, Jiarui Qin, Jinpeng Li, Jun Zhao, Liqun Deng, Lin Li, Minghui Xu, Naifu Zhang, Nianzu Zheng, Qiang Li, Rongju Ruan, Shengjun Cheng, Tianyu Guo, Wei He, Wei Li, Weiwen Liu, Wulong Liu, Xinyi Dai, Yonghan Dong, Yu Pan, Yue Li, Yufei Wang, Yujun Li, Yunsheng Ni, Zhe Liu, Zhenhe Zhang, Zhicheng Liu
cs.AI

초록

1350억 개의 파라미터와 고밀도 트랜스포머 모듈을 갖춘 대규모 언어 모델(LLM)인 Pangu Ultra를 소개합니다. 이 모델은 Ascend 신경 처리 장치(NPU)에서 학습되었습니다. 최근 몇 년간 LLM 분야에서는 모델의 규모와 능력을 끌어올리는 데 있어 전례 없는 발전이 이루어졌지만, 이렇게 대규모 모델을 학습시키는 것은 여전히 상당한 최적화와 시스템적 도전을 수반합니다. 학습 과정을 안정화하기 위해, 우리는 깊이 스케일링 샌드위치 정규화(depth-scaled sandwich normalization)를 제안하며, 이는 깊은 모델의 학습 과정에서 발생하는 손실 급증(loss spike)을 효과적으로 제거합니다. 우리는 13.2조 개의 다양하고 고품질의 토큰으로 모델을 사전 학습시켰으며, 사후 학습 과정에서 추론 능력을 더욱 강화했습니다. 이렇게 대규모 학습을 효율적으로 수행하기 위해, 우리는 8,192개의 Ascend NPU와 일련의 시스템 최적화를 활용했습니다. 다양한 벤치마크에서의 평가 결과, Pangu Ultra는 Llama 405B와 Mistral Large 2와 같은 고밀도 LLM의 최신 기술 수준을 크게 앞질렀으며, 훨씬 더 많은 파라미터를 포함하는 희소 모델 구조를 가진 DeepSeek-R1과도 경쟁력 있는 결과를 달성했습니다. 우리의 탐구는 Ascend NPU가 1000억 개 이상의 파라미터를 가진 고밀도 모델을 효율적이고 효과적으로 학습시킬 수 있음을 입증합니다. 우리의 모델과 시스템은 상업적 고객에게 제공될 예정입니다.
English
We present Pangu Ultra, a Large Language Model (LLM) with 135 billion parameters and dense Transformer modules trained on Ascend Neural Processing Units (NPUs). Although the field of LLM has been witnessing unprecedented advances in pushing the scale and capability of LLM in recent years, training such a large-scale model still involves significant optimization and system challenges. To stabilize the training process, we propose depth-scaled sandwich normalization, which effectively eliminates loss spikes during the training process of deep models. We pre-train our model on 13.2 trillion diverse and high-quality tokens and further enhance its reasoning capabilities during post-training. To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1, whose sparse model structure contains much more parameters. Our exploration demonstrates that Ascend NPUs are capable of efficiently and effectively training dense models with more than 100 billion parameters. Our model and system will be available for our commercial customers.

Summary

AI-Generated Summary

PDF01April 11, 2025