ChatPaper.aiChatPaper

Pré-entraînement résilient aux valeurs aberrantes pour une quantification robuste en 4 bits des grands modèles de langage

Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models

June 24, 2025
Auteurs: Jungwoo Park, Taewhoo Lee, Chanwoong Yoon, Hyeon Hwang, Jaewoo Kang
cs.AI

Résumé

Les valeurs aberrantes extrêmes d'activation dans les grands modèles de langage (LLM) dégradent de manière critique les performances de quantification, entravant leur déploiement efficace sur les appareils. Bien que les opérations par canal et la mise à l'échelle adaptative des gradients soient des causes reconnues, leur atténuation pratique reste difficile. Nous introduisons l'**Outlier-Safe Pre-Training (OSP)**, une ligne directrice pratique qui prévient de manière proactive la formation de valeurs aberrantes plutôt que de s'appuyer sur des atténuations a posteriori. L'OSP combine trois innovations clés : (1) l'optimiseur Muon, qui élimine les bases privilégiées tout en maintenant l'efficacité de l'entraînement ; (2) le RMSNorm à échelle unique, qui empêche l'amplification par canal ; et (3) une projection d'incorporation apprenable, redistribuant les magnitudes d'activation provenant des matrices d'incorporation. Nous validons l'OSP en entraînant un modèle de 1,4 milliard de paramètres sur 1 trillion de tokens, ce qui constitue le premier LLM à l'échelle de production entraîné sans de telles valeurs aberrantes. Sous une quantification agressive en 4 bits, notre modèle OSP atteint un score moyen de 35,7 sur 10 benchmarks (contre 26,5 pour un modèle entraîné avec Adam), avec seulement 2 % de surcharge d'entraînement. Fait remarquable, les modèles OSP présentent un excès de kurtosis proche de zéro (0,04) par rapport aux valeurs extrêmes (1818,56) des modèles standards, modifiant fondamentalement le comportement de quantification des LLM. Notre travail démontre que les valeurs aberrantes ne sont pas inhérentes aux LLM mais sont des conséquences des stratégies d'entraînement, ouvrant la voie à un déploiement plus efficace des LLM. Le code source et les points de contrôle pré-entraînés sont disponibles à l'adresse https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
English
Extreme activation outliers in Large Language Models (LLMs) critically degrade quantization performance, hindering efficient on-device deployment. While channel-wise operations and adaptive gradient scaling are recognized causes, practical mitigation remains challenging. We introduce Outlier-Safe Pre-Training (OSP), a practical guideline that proactively prevents outlier formation rather than relying on post-hoc mitigation. OSP combines three key innovations: (1) the Muon optimizer, eliminating privileged bases while maintaining training efficiency; (2) Single-Scale RMSNorm, preventing channel-wise amplification; and (3) a learnable embedding projection, redistributing activation magnitudes originating from embedding matrices. We validate OSP by training a 1.4B-parameter model on 1 trillion tokens, which is the first production-scale LLM trained without such outliers. Under aggressive 4-bit quantization, our OSP model achieves a 35.7 average score across 10 benchmarks (compared to 26.5 for an Adam-trained model), with only a 2% training overhead. Remarkably, OSP models exhibit near-zero excess kurtosis (0.04) compared to extreme values (1818.56) in standard models, fundamentally altering LLM quantization behavior. Our work demonstrates that outliers are not inherent to LLMs but are consequences of training strategies, paving the way for more efficient LLM deployment. The source code and pretrained checkpoints are available at https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
PDF403June 26, 2025