Pré-entraînement résilient aux valeurs aberrantes pour une quantification robuste en 4 bits des grands modèles de langage
Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models
June 24, 2025
Auteurs: Jungwoo Park, Taewhoo Lee, Chanwoong Yoon, Hyeon Hwang, Jaewoo Kang
cs.AI
Résumé
Les valeurs aberrantes extrêmes d'activation dans les grands modèles de langage (LLM) dégradent de manière critique les performances de quantification, entravant leur déploiement efficace sur les appareils. Bien que les opérations par canal et la mise à l'échelle adaptative des gradients soient des causes reconnues, leur atténuation pratique reste difficile. Nous introduisons l'**Outlier-Safe Pre-Training (OSP)**, une ligne directrice pratique qui prévient de manière proactive la formation de valeurs aberrantes plutôt que de s'appuyer sur des atténuations a posteriori. L'OSP combine trois innovations clés : (1) l'optimiseur Muon, qui élimine les bases privilégiées tout en maintenant l'efficacité de l'entraînement ; (2) le RMSNorm à échelle unique, qui empêche l'amplification par canal ; et (3) une projection d'incorporation apprenable, redistribuant les magnitudes d'activation provenant des matrices d'incorporation. Nous validons l'OSP en entraînant un modèle de 1,4 milliard de paramètres sur 1 trillion de tokens, ce qui constitue le premier LLM à l'échelle de production entraîné sans de telles valeurs aberrantes. Sous une quantification agressive en 4 bits, notre modèle OSP atteint un score moyen de 35,7 sur 10 benchmarks (contre 26,5 pour un modèle entraîné avec Adam), avec seulement 2 % de surcharge d'entraînement. Fait remarquable, les modèles OSP présentent un excès de kurtosis proche de zéro (0,04) par rapport aux valeurs extrêmes (1818,56) des modèles standards, modifiant fondamentalement le comportement de quantification des LLM. Notre travail démontre que les valeurs aberrantes ne sont pas inhérentes aux LLM mais sont des conséquences des stratégies d'entraînement, ouvrant la voie à un déploiement plus efficace des LLM. Le code source et les points de contrôle pré-entraînés sont disponibles à l'adresse https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
English
Extreme activation outliers in Large Language Models (LLMs) critically
degrade quantization performance, hindering efficient on-device deployment.
While channel-wise operations and adaptive gradient scaling are recognized
causes, practical mitigation remains challenging. We introduce Outlier-Safe
Pre-Training (OSP), a practical guideline that proactively prevents outlier
formation rather than relying on post-hoc mitigation. OSP combines three key
innovations: (1) the Muon optimizer, eliminating privileged bases while
maintaining training efficiency; (2) Single-Scale RMSNorm, preventing
channel-wise amplification; and (3) a learnable embedding projection,
redistributing activation magnitudes originating from embedding matrices. We
validate OSP by training a 1.4B-parameter model on 1 trillion tokens, which is
the first production-scale LLM trained without such outliers. Under aggressive
4-bit quantization, our OSP model achieves a 35.7 average score across 10
benchmarks (compared to 26.5 for an Adam-trained model), with only a 2%
training overhead. Remarkably, OSP models exhibit near-zero excess kurtosis
(0.04) compared to extreme values (1818.56) in standard models, fundamentally
altering LLM quantization behavior. Our work demonstrates that outliers are not
inherent to LLMs but are consequences of training strategies, paving the way
for more efficient LLM deployment. The source code and pretrained checkpoints
are available at https://github.com/dmis-lab/Outlier-Safe-Pre-Training.