Pangu Ultra: Die Grenzen dichter großer Sprachmodelle auf Ascend-NPUs erweiternPangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend
NPUs
Wir präsentieren Pangu Ultra, ein Large Language Model (LLM) mit 135 Milliarden Parametern und dichten Transformer-Modulen, das auf Ascend Neural Processing Units (NPUs) trainiert wurde. Obwohl das Feld der LLMs in den letzten Jahren beispiellose Fortschritte bei der Skalierung und Fähigkeitserweiterung von LLMs erlebt hat, stellt das Training eines derart großskaligen Modells weiterhin erhebliche Optimierungs- und Systemherausforderungen dar. Um den Trainingsprozess zu stabilisieren, schlagen wir eine tiefenskalierte Sandwich-Normalisierung vor, die Verlustspitzen während des Trainingsprozesses tiefer Modelle effektiv eliminiert. Wir pre-trainieren unser Modell mit 13,2 Billionen diversen und hochwertigen Tokens und verbessern seine Fähigkeiten zur logischen Schlussfolgerung weiter während des Post-Trainings. Um ein derart großskaliges Training effizient durchzuführen, nutzen wir 8.192 Ascend NPUs mit einer Reihe von Systemoptimierungen. Bewertungen auf mehreren diversen Benchmarks zeigen, dass Pangu Ultra die state-of-the-art-Fähigkeiten dichter LLMs wie Llama 405B und Mistral Large 2 deutlich vorantreibt und sogar wettbewerbsfähige Ergebnisse mit DeepSeek-R1 erzielt, dessen sparsame Modellstruktur deutlich mehr Parameter enthält. Unsere Untersuchung zeigt, dass Ascend NPUs in der Lage sind, dichte Modelle mit mehr als 100 Milliarden Parametern effizient und effektiv zu trainieren. Unser Modell und System werden für unsere kommerziellen Kunden verfügbar sein.