ChatPaper.aiChatPaper

Предварительное обучение с защитой от выбросов для устойчивого 4-битного квантования крупных языковых моделей

Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models

June 24, 2025
Авторы: Jungwoo Park, Taewhoo Lee, Chanwoong Yoon, Hyeon Hwang, Jaewoo Kang
cs.AI

Аннотация

Экстремальные выбросы активаций в больших языковых моделях (LLM) критически ухудшают производительность квантования, затрудняя эффективное развертывание на устройствах. Хотя поэлементные операции и адаптивное масштабирование градиентов признаны причинами, практическое устранение этих проблем остается сложной задачей. Мы представляем Outlier-Safe Pre-Training (OSP) — практическое руководство, которое проактивно предотвращает формирование выбросов вместо их последующего устранения. OSP объединяет три ключевых инновации: (1) оптимизатор Muon, устраняющий привилегированные базисы при сохранении эффективности обучения; (2) Single-Scale RMSNorm, предотвращающий поэлементное усиление; и (3) обучаемую проекцию вложений, перераспределяющую величины активаций, возникающие из матриц вложений. Мы проверяем OSP, обучая модель с 1,4 миллиардами параметров на 1 триллионе токенов, что является первой LLM производственного масштаба, обученной без таких выбросов. При агрессивном 4-битном квантовании наша OSP-модель достигает среднего показателя 35,7 по 10 тестам (по сравнению с 26,5 для модели, обученной на Adam), с увеличением времени обучения всего на 2%. Примечательно, что OSP-модели демонстрируют почти нулевой избыточный эксцесс (0,04) по сравнению с экстремальными значениями (1818,56) в стандартных моделях, что принципиально меняет поведение LLM при квантовании. Наша работа показывает, что выбросы не являются неотъемлемой частью LLM, а являются следствием стратегий обучения, открывая путь к более эффективному развертыванию LLM. Исходный код и предобученные контрольные точки доступны по адресу https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
English
Extreme activation outliers in Large Language Models (LLMs) critically degrade quantization performance, hindering efficient on-device deployment. While channel-wise operations and adaptive gradient scaling are recognized causes, practical mitigation remains challenging. We introduce Outlier-Safe Pre-Training (OSP), a practical guideline that proactively prevents outlier formation rather than relying on post-hoc mitigation. OSP combines three key innovations: (1) the Muon optimizer, eliminating privileged bases while maintaining training efficiency; (2) Single-Scale RMSNorm, preventing channel-wise amplification; and (3) a learnable embedding projection, redistributing activation magnitudes originating from embedding matrices. We validate OSP by training a 1.4B-parameter model on 1 trillion tokens, which is the first production-scale LLM trained without such outliers. Under aggressive 4-bit quantization, our OSP model achieves a 35.7 average score across 10 benchmarks (compared to 26.5 for an Adam-trained model), with only a 2% training overhead. Remarkably, OSP models exhibit near-zero excess kurtosis (0.04) compared to extreme values (1818.56) in standard models, fundamentally altering LLM quantization behavior. Our work demonstrates that outliers are not inherent to LLMs but are consequences of training strategies, paving the way for more efficient LLM deployment. The source code and pretrained checkpoints are available at https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
PDF403June 26, 2025