ChatPaper.aiChatPaper

Pre-Addestramento Sicuro dagli Outlier per una Quantizzazione Robusta a 4 Bit di Modelli Linguistici di Grande Dimensione

Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models

June 24, 2025
Autori: Jungwoo Park, Taewhoo Lee, Chanwoong Yoon, Hyeon Hwang, Jaewoo Kang
cs.AI

Abstract

Gli outlier estremi di attivazione nei Large Language Models (LLMs) degradano criticamente le prestazioni di quantizzazione, ostacolando il dispiegamento efficiente su dispositivi. Sebbene le operazioni canale-per-canale e il ridimensionamento adattivo del gradiente siano riconosciuti come cause, la mitigazione pratica rimane una sfida. Introduciamo l'Outlier-Safe Pre-Training (OSP), una linea guida pratica che previene proattivamente la formazione di outlier anziché affidarsi a mitigazioni post-hoc. L'OSP combina tre innovazioni chiave: (1) l'ottimizzatore Muon, che elimina le basi privilegiate mantenendo l'efficienza dell'addestramento; (2) il Single-Scale RMSNorm, che previene l'amplificazione canale-per-canale; e (3) una proiezione di embedding apprendibile, che ridistribuisce le magnitudini di attivazione originate dalle matrici di embedding. Validiamo l'OSP addestrando un modello da 1,4 miliardi di parametri su 1 trilione di token, che rappresenta il primo LLM su scala produttiva addestrato senza tali outlier. Sotto una quantizzazione aggressiva a 4 bit, il nostro modello OSP raggiunge un punteggio medio di 35,7 su 10 benchmark (rispetto a 26,5 per un modello addestrato con Adam), con solo un sovraccarico del 2% durante l'addestramento. In modo notevole, i modelli OSP mostrano un eccesso di curtosi quasi nullo (0,04) rispetto ai valori estremi (1818,56) nei modelli standard, alterando fondamentalmente il comportamento di quantizzazione degli LLM. Il nostro lavoro dimostra che gli outlier non sono intrinseci agli LLM ma sono conseguenze delle strategie di addestramento, aprendo la strada a un dispiegamento più efficiente degli LLM. Il codice sorgente e i checkpoint pre-addestrati sono disponibili all'indirizzo https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
English
Extreme activation outliers in Large Language Models (LLMs) critically degrade quantization performance, hindering efficient on-device deployment. While channel-wise operations and adaptive gradient scaling are recognized causes, practical mitigation remains challenging. We introduce Outlier-Safe Pre-Training (OSP), a practical guideline that proactively prevents outlier formation rather than relying on post-hoc mitigation. OSP combines three key innovations: (1) the Muon optimizer, eliminating privileged bases while maintaining training efficiency; (2) Single-Scale RMSNorm, preventing channel-wise amplification; and (3) a learnable embedding projection, redistributing activation magnitudes originating from embedding matrices. We validate OSP by training a 1.4B-parameter model on 1 trillion tokens, which is the first production-scale LLM trained without such outliers. Under aggressive 4-bit quantization, our OSP model achieves a 35.7 average score across 10 benchmarks (compared to 26.5 for an Adam-trained model), with only a 2% training overhead. Remarkably, OSP models exhibit near-zero excess kurtosis (0.04) compared to extreme values (1818.56) in standard models, fundamentally altering LLM quantization behavior. Our work demonstrates that outliers are not inherent to LLMs but are consequences of training strategies, paving the way for more efficient LLM deployment. The source code and pretrained checkpoints are available at https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
PDF445June 26, 2025