Outlier-sicheres Vor-Training für robuste 4-Bit-Quantisierung großer Sprachmodelle
Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models
June 24, 2025
Autoren: Jungwoo Park, Taewhoo Lee, Chanwoong Yoon, Hyeon Hwang, Jaewoo Kang
cs.AI
Zusammenfassung
Extreme Aktivierungsausreißer in großen Sprachmodellen (LLMs) beeinträchtigen die Quantisierungsleistung erheblich und behindern eine effiziente Bereitstellung auf Endgeräten. Während kanalweise Operationen und adaptive Gradientenskalierung als bekannte Ursachen gelten, bleibt die praktische Abhilfe eine Herausforderung. Wir stellen Outlier-Safe Pre-Training (OSP) vor, eine praktische Richtlinie, die die Bildung von Ausreißern proaktiv verhindert, anstatt sich auf nachträgliche Maßnahmen zu verlassen. OSP kombiniert drei Schlüsselinnovationen: (1) den Muon-Optimierer, der privilegierte Basen eliminiert, während die Trainings effizienz erhalten bleibt; (2) Single-Scale RMSNorm, das eine kanalweise Verstärkung verhindert; und (3) eine lernbare Einbettungsprojektion, die die Aktivierungsgrößen, die von Einbettungsmatrizen stammen, neu verteilt. Wir validieren OSP, indem wir ein Modell mit 1,4 Milliarden Parametern auf 1 Billion Tokens trainieren, das erste produktionsreife LLM, das ohne solche Ausreißer trainiert wurde. Unter aggressiver 4-Bit-Quantisierung erreicht unser OSP-Modell einen durchschnittlichen Score von 35,7 über 10 Benchmarks (verglichen mit 26,5 für ein mit Adam trainiertes Modell), bei nur 2 % zusätzlichem Trainingsaufwand. Bemerkenswerterweise zeigen OSP-Modelle eine nahezu null Überschusskurtosis (0,04) im Vergleich zu extremen Werten (1818,56) in Standardmodellen, was das Quantisierungsverhalten von LLMs grundlegend verändert. Unsere Arbeit zeigt, dass Ausreißer nicht inhärent für LLMs sind, sondern Konsequenzen von Trainingsstrategien, und ebnet den Weg für eine effizientere Bereitstellung von LLMs. Der Quellcode und die vortrainierten Checkpoints sind unter https://github.com/dmis-lab/Outlier-Safe-Pre-Training verfügbar.
English
Extreme activation outliers in Large Language Models (LLMs) critically
degrade quantization performance, hindering efficient on-device deployment.
While channel-wise operations and adaptive gradient scaling are recognized
causes, practical mitigation remains challenging. We introduce Outlier-Safe
Pre-Training (OSP), a practical guideline that proactively prevents outlier
formation rather than relying on post-hoc mitigation. OSP combines three key
innovations: (1) the Muon optimizer, eliminating privileged bases while
maintaining training efficiency; (2) Single-Scale RMSNorm, preventing
channel-wise amplification; and (3) a learnable embedding projection,
redistributing activation magnitudes originating from embedding matrices. We
validate OSP by training a 1.4B-parameter model on 1 trillion tokens, which is
the first production-scale LLM trained without such outliers. Under aggressive
4-bit quantization, our OSP model achieves a 35.7 average score across 10
benchmarks (compared to 26.5 for an Adam-trained model), with only a 2%
training overhead. Remarkably, OSP models exhibit near-zero excess kurtosis
(0.04) compared to extreme values (1818.56) in standard models, fundamentally
altering LLM quantization behavior. Our work demonstrates that outliers are not
inherent to LLMs but are consequences of training strategies, paving the way
for more efficient LLM deployment. The source code and pretrained checkpoints
are available at https://github.com/dmis-lab/Outlier-Safe-Pre-Training.