Preentrenamiento Seguro contra Valores Atípicos para una Cuantización Robusta de 4 Bits en Modelos de Lenguaje a Gran Escala
Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models
June 24, 2025
Autores: Jungwoo Park, Taewhoo Lee, Chanwoong Yoon, Hyeon Hwang, Jaewoo Kang
cs.AI
Resumen
Los valores atípicos extremos en las activaciones de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) degradan críticamente el rendimiento de la cuantización, dificultando el despliegue eficiente en dispositivos. Aunque se reconocen como causas las operaciones por canal y el escalado adaptativo de gradientes, la mitigación práctica sigue siendo un desafío. Introducimos el Entrenamiento Previo a Prueba de Valores Atípicos (Outlier-Safe Pre-Training, OSP), una guía práctica que previene proactivamente la formación de valores atípicos en lugar de depender de mitigaciones posteriores. OSP combina tres innovaciones clave: (1) el optimizador Muon, que elimina bases privilegiadas mientras mantiene la eficiencia del entrenamiento; (2) RMSNorm de Escala Única, que evita la amplificación por canal; y (3) una proyección de incrustación aprendible, que redistribuye las magnitudes de activación originadas en matrices de incrustación. Validamos OSP entrenando un modelo de 1.4 mil millones de parámetros con 1 billón de tokens, siendo el primer LLM a escala de producción entrenado sin tales valores atípicos. Bajo una cuantización agresiva de 4 bits, nuestro modelo OSP alcanza un puntaje promedio de 35.7 en 10 benchmarks (comparado con 26.5 para un modelo entrenado con Adam), con solo un 2% de sobrecarga en el entrenamiento. Notablemente, los modelos OSP exhiben un exceso de curtosis cercano a cero (0.04) en comparación con valores extremos (1818.56) en modelos estándar, alterando fundamentalmente el comportamiento de cuantización de los LLMs. Nuestro trabajo demuestra que los valores atípicos no son inherentes a los LLMs, sino consecuencias de las estrategias de entrenamiento, allanando el camino para un despliegue más eficiente de los LLMs. El código fuente y los puntos de control preentrenados están disponibles en https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
English
Extreme activation outliers in Large Language Models (LLMs) critically
degrade quantization performance, hindering efficient on-device deployment.
While channel-wise operations and adaptive gradient scaling are recognized
causes, practical mitigation remains challenging. We introduce Outlier-Safe
Pre-Training (OSP), a practical guideline that proactively prevents outlier
formation rather than relying on post-hoc mitigation. OSP combines three key
innovations: (1) the Muon optimizer, eliminating privileged bases while
maintaining training efficiency; (2) Single-Scale RMSNorm, preventing
channel-wise amplification; and (3) a learnable embedding projection,
redistributing activation magnitudes originating from embedding matrices. We
validate OSP by training a 1.4B-parameter model on 1 trillion tokens, which is
the first production-scale LLM trained without such outliers. Under aggressive
4-bit quantization, our OSP model achieves a 35.7 average score across 10
benchmarks (compared to 26.5 for an Adam-trained model), with only a 2%
training overhead. Remarkably, OSP models exhibit near-zero excess kurtosis
(0.04) compared to extreme values (1818.56) in standard models, fundamentally
altering LLM quantization behavior. Our work demonstrates that outliers are not
inherent to LLMs but are consequences of training strategies, paving the way
for more efficient LLM deployment. The source code and pretrained checkpoints
are available at https://github.com/dmis-lab/Outlier-Safe-Pre-Training.