Pangu Ultra: Расширение границ плотных крупных языковых моделей на процессорах Ascend NPU

Аннотация

Мы представляем Pangu Ultra — крупную языковую модель (LLM) с 135 миллиардами параметров и плотными трансформерными модулями, обученную на нейронных процессорах Ascend (NPU). Хотя в последние годы область LLM демонстрирует беспрецедентные успехи в увеличении масштаба и возможностей таких моделей, обучение столь крупномасштабной модели по-прежнему связано со значительными оптимизационными и системными сложностями. Для стабилизации процесса обучения мы предлагаем метод нормализации с масштабированием по глубине (depth-scaled sandwich normalization), который эффективно устраняет всплески потерь при обучении глубоких моделей. Мы предварительно обучаем нашу модель на 13,2 триллионах разнообразных и высококачественных токенов и дополнительно улучшаем её способности к рассуждению в процессе пост-обучения. Для эффективного проведения столь масштабного обучения мы используем 8 192 NPU Ascend с рядом системных оптимизаций. Оценки на множестве разнообразных бенчмарков показывают, что Pangu Ultra значительно превосходит современные возможности плотных LLM, таких как Llama 405B и Mistral Large 2, и даже демонстрирует конкурентоспособные результаты по сравнению с DeepSeek-R1, чья разреженная структура модели содержит гораздо больше параметров. Наше исследование демонстрирует, что NPU Ascend способны эффективно и результативно обучать плотные модели с более чем 100 миллиардами параметров. Наша модель и система будут доступны для коммерческих клиентов.

English

We present Pangu Ultra, a Large Language Model (LLM) with 135 billion parameters and dense Transformer modules trained on Ascend Neural Processing Units (NPUs). Although the field of LLM has been witnessing unprecedented advances in pushing the scale and capability of LLM in recent years, training such a large-scale model still involves significant optimization and system challenges. To stabilize the training process, we propose depth-scaled sandwich normalization, which effectively eliminates loss spikes during the training process of deep models. We pre-train our model on 13.2 trillion diverse and high-quality tokens and further enhance its reasoning capabilities during post-training. To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1, whose sparse model structure contains much more parameters. Our exploration demonstrates that Ascend NPUs are capable of efficiently and effectively training dense models with more than 100 billion parameters. Our model and system will be available for our commercial customers.

Pangu Ultra: Расширение границ плотных крупных языковых моделей на процессорах Ascend NPU

Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

Аннотация

Support