Outlier-Veilige Pre-Training voor Robuuste 4-Bits Kwantisatie van Grote Taalmodellen
Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models
June 24, 2025
Auteurs: Jungwoo Park, Taewhoo Lee, Chanwoong Yoon, Hyeon Hwang, Jaewoo Kang
cs.AI
Samenvatting
Extreme activatie-uitbijters in Large Language Models (LLMs) verslechteren de kwantiseringsprestaties aanzienlijk, wat een efficiënte implementatie op apparaten belemmert. Hoewel kanaalgewijze operaties en adaptieve gradiëntschaling erkende oorzaken zijn, blijft praktische mitigatie een uitdaging. Wij introduceren Outlier-Safe Pre-Training (OSP), een praktische richtlijn die proactief de vorming van uitbijters voorkomt in plaats van te vertrouwen op achteraf mitigatie. OSP combineert drie belangrijke innovaties: (1) de Muon-optimalisator, die bevoorrechte bases elimineert terwijl de trainings efficiëntie behouden blijft; (2) Single-Scale RMSNorm, dat kanaalgewijze versterking voorkomt; en (3) een leerbare embeddingprojectie, die de activatiemagnitudes herverdeelt die afkomstig zijn van embeddingmatrices. We valideren OSP door een model met 1,4 miljard parameters te trainen op 1 biljoen tokens, wat het eerste productieschaal LLM is dat zonder dergelijke uitbijters is getraind. Onder agressieve 4-bit kwantisering behaalt ons OSP-model een gemiddelde score van 35,7 over 10 benchmarks (vergeleken met 26,5 voor een met Adam getraind model), met slechts 2% trainingsoverhead. Opmerkelijk is dat OSP-modellen een bijna nul excessieve kurtosis (0,04) vertonen in vergelijking met extreme waarden (1818,56) in standaardmodellen, wat het kwantiseringsgedrag van LLM's fundamenteel verandert. Ons werk toont aan dat uitbijters niet inherent zijn aan LLM's, maar gevolgen zijn van trainingsstrategieën, wat de weg vrijmaakt voor efficiëntere LLM-implementatie. De broncode en vooraf getrainde checkpoints zijn beschikbaar op https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
English
Extreme activation outliers in Large Language Models (LLMs) critically
degrade quantization performance, hindering efficient on-device deployment.
While channel-wise operations and adaptive gradient scaling are recognized
causes, practical mitigation remains challenging. We introduce Outlier-Safe
Pre-Training (OSP), a practical guideline that proactively prevents outlier
formation rather than relying on post-hoc mitigation. OSP combines three key
innovations: (1) the Muon optimizer, eliminating privileged bases while
maintaining training efficiency; (2) Single-Scale RMSNorm, preventing
channel-wise amplification; and (3) a learnable embedding projection,
redistributing activation magnitudes originating from embedding matrices. We
validate OSP by training a 1.4B-parameter model on 1 trillion tokens, which is
the first production-scale LLM trained without such outliers. Under aggressive
4-bit quantization, our OSP model achieves a 35.7 average score across 10
benchmarks (compared to 26.5 for an Adam-trained model), with only a 2%
training overhead. Remarkably, OSP models exhibit near-zero excess kurtosis
(0.04) compared to extreme values (1818.56) in standard models, fundamentally
altering LLM quantization behavior. Our work demonstrates that outliers are not
inherent to LLMs but are consequences of training strategies, paving the way
for more efficient LLM deployment. The source code and pretrained checkpoints
are available at https://github.com/dmis-lab/Outlier-Safe-Pre-Training.