ChatPaper.aiChatPaper

Pangu Ultra: Ascend NPUにおける高密度大規模言語モデルの限界への挑戦

Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

April 10, 2025
著者: Yichun Yin, Wenyong Huang, Kaikai Song, Yehui Tang, Xueyu Wu, Wei Guo, Peng Guo, Yaoyuan Wang, Xiaojun Meng, Yasheng Wang, Dong Li, Can Chen, Dandan Tu, Yin Li, Fisher Yu, Ruiming Tang, Yunhe Wang, Baojun Wang, Bin Wang, Bo Wang, Boxiao Liu, Changzheng Zhang, Duyu Tang, Fei Mi, Hui Jin, Jiansheng Wei, Jiarui Qin, Jinpeng Li, Jun Zhao, Liqun Deng, Lin Li, Minghui Xu, Naifu Zhang, Nianzu Zheng, Qiang Li, Rongju Ruan, Shengjun Cheng, Tianyu Guo, Wei He, Wei Li, Weiwen Liu, Wulong Liu, Xinyi Dai, Yonghan Dong, Yu Pan, Yue Li, Yufei Wang, Yujun Li, Yunsheng Ni, Zhe Liu, Zhenhe Zhang, Zhicheng Liu
cs.AI

要旨

我々は、1350億のパラメータと密なTransformerモジュールを備えた大規模言語モデル(LLM)であるPangu Ultraを発表します。このモデルは、Ascend Neural Processing Units(NPU)上でトレーニングされました。近年、LLMの分野では規模と能力を押し上げる前例のない進展が見られていますが、このような大規模モデルのトレーニングには依然として重要な最適化とシステム上の課題が伴います。トレーニングプロセスを安定化するために、我々は深さスケーリングされたサンドイッチ正規化を提案し、深層モデルのトレーニング中に発生する損失スパイクを効果的に排除します。我々は、13.2兆の多様で高品質なトークンでモデルを事前トレーニングし、ポストトレーニング中にその推論能力をさらに強化しました。このような大規模トレーニングを効率的に実行するために、8,192個のAscend NPUと一連のシステム最適化を活用しました。多様なベンチマークでの評価結果は、Pangu UltraがLlama 405BやMistral Large 2などの密なLLMの最先端能力を大幅に進化させ、さらにパラメータ数がはるかに多いスパースモデル構造を持つDeepSeek-R1と競合する結果を達成したことを示しています。我々の探求は、Ascend NPUが1000億以上のパラメータを持つ密なモデルを効率的かつ効果的にトレーニングできることを実証しています。我々のモデルとシステムは、商用顧客向けに提供されます。
English
We present Pangu Ultra, a Large Language Model (LLM) with 135 billion parameters and dense Transformer modules trained on Ascend Neural Processing Units (NPUs). Although the field of LLM has been witnessing unprecedented advances in pushing the scale and capability of LLM in recent years, training such a large-scale model still involves significant optimization and system challenges. To stabilize the training process, we propose depth-scaled sandwich normalization, which effectively eliminates loss spikes during the training process of deep models. We pre-train our model on 13.2 trillion diverse and high-quality tokens and further enhance its reasoning capabilities during post-training. To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1, whose sparse model structure contains much more parameters. Our exploration demonstrates that Ascend NPUs are capable of efficiently and effectively training dense models with more than 100 billion parameters. Our model and system will be available for our commercial customers.

Summary

AI-Generated Summary

PDF01April 11, 2025