Pangu Ultra: Die Grenzen dichter großer Sprachmodelle auf Ascend-NPUs erweitern

Zusammenfassung

Wir präsentieren Pangu Ultra, ein Large Language Model (LLM) mit 135 Milliarden Parametern und dichten Transformer-Modulen, das auf Ascend Neural Processing Units (NPUs) trainiert wurde. Obwohl das Feld der LLMs in den letzten Jahren beispiellose Fortschritte bei der Skalierung und Fähigkeitserweiterung von LLMs erlebt hat, stellt das Training eines derart großskaligen Modells weiterhin erhebliche Optimierungs- und Systemherausforderungen dar. Um den Trainingsprozess zu stabilisieren, schlagen wir eine tiefenskalierte Sandwich-Normalisierung vor, die Verlustspitzen während des Trainingsprozesses tiefer Modelle effektiv eliminiert. Wir pre-trainieren unser Modell mit 13,2 Billionen diversen und hochwertigen Tokens und verbessern seine Fähigkeiten zur logischen Schlussfolgerung weiter während des Post-Trainings. Um ein derart großskaliges Training effizient durchzuführen, nutzen wir 8.192 Ascend NPUs mit einer Reihe von Systemoptimierungen. Bewertungen auf mehreren diversen Benchmarks zeigen, dass Pangu Ultra die state-of-the-art-Fähigkeiten dichter LLMs wie Llama 405B und Mistral Large 2 deutlich vorantreibt und sogar wettbewerbsfähige Ergebnisse mit DeepSeek-R1 erzielt, dessen sparsame Modellstruktur deutlich mehr Parameter enthält. Unsere Untersuchung zeigt, dass Ascend NPUs in der Lage sind, dichte Modelle mit mehr als 100 Milliarden Parametern effizient und effektiv zu trainieren. Unser Modell und System werden für unsere kommerziellen Kunden verfügbar sein.

English

We present Pangu Ultra, a Large Language Model (LLM) with 135 billion parameters and dense Transformer modules trained on Ascend Neural Processing Units (NPUs). Although the field of LLM has been witnessing unprecedented advances in pushing the scale and capability of LLM in recent years, training such a large-scale model still involves significant optimization and system challenges. To stabilize the training process, we propose depth-scaled sandwich normalization, which effectively eliminates loss spikes during the training process of deep models. We pre-train our model on 13.2 trillion diverse and high-quality tokens and further enhance its reasoning capabilities during post-training. To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1, whose sparse model structure contains much more parameters. Our exploration demonstrates that Ascend NPUs are capable of efficiently and effectively training dense models with more than 100 billion parameters. Our model and system will be available for our commercial customers.