Preentrenamiento Seguro contra Valores Atípicos para una Cuantización Robusta de 4 Bits en Modelos de Lenguaje a Gran Escala

Resumen

Los valores atípicos extremos en las activaciones de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) degradan críticamente el rendimiento de la cuantización, dificultando el despliegue eficiente en dispositivos. Aunque se reconocen como causas las operaciones por canal y el escalado adaptativo de gradientes, la mitigación práctica sigue siendo un desafío. Introducimos el Entrenamiento Previo a Prueba de Valores Atípicos (Outlier-Safe Pre-Training, OSP), una guía práctica que previene proactivamente la formación de valores atípicos en lugar de depender de mitigaciones posteriores. OSP combina tres innovaciones clave: (1) el optimizador Muon, que elimina bases privilegiadas mientras mantiene la eficiencia del entrenamiento; (2) RMSNorm de Escala Única, que evita la amplificación por canal; y (3) una proyección de incrustación aprendible, que redistribuye las magnitudes de activación originadas en matrices de incrustación. Validamos OSP entrenando un modelo de 1.4 mil millones de parámetros con 1 billón de tokens, siendo el primer LLM a escala de producción entrenado sin tales valores atípicos. Bajo una cuantización agresiva de 4 bits, nuestro modelo OSP alcanza un puntaje promedio de 35.7 en 10 benchmarks (comparado con 26.5 para un modelo entrenado con Adam), con solo un 2% de sobrecarga en el entrenamiento. Notablemente, los modelos OSP exhiben un exceso de curtosis cercano a cero (0.04) en comparación con valores extremos (1818.56) en modelos estándar, alterando fundamentalmente el comportamiento de cuantización de los LLMs. Nuestro trabajo demuestra que los valores atípicos no son inherentes a los LLMs, sino consecuencias de las estrategias de entrenamiento, allanando el camino para un despliegue más eficiente de los LLMs. El código fuente y los puntos de control preentrenados están disponibles en https://github.com/dmis-lab/Outlier-Safe-Pre-Training.

English

Extreme activation outliers in Large Language Models (LLMs) critically degrade quantization performance, hindering efficient on-device deployment. While channel-wise operations and adaptive gradient scaling are recognized causes, practical mitigation remains challenging. We introduce Outlier-Safe Pre-Training (OSP), a practical guideline that proactively prevents outlier formation rather than relying on post-hoc mitigation. OSP combines three key innovations: (1) the Muon optimizer, eliminating privileged bases while maintaining training efficiency; (2) Single-Scale RMSNorm, preventing channel-wise amplification; and (3) a learnable embedding projection, redistributing activation magnitudes originating from embedding matrices. We validate OSP by training a 1.4B-parameter model on 1 trillion tokens, which is the first production-scale LLM trained without such outliers. Under aggressive 4-bit quantization, our OSP model achieves a 35.7 average score across 10 benchmarks (compared to 26.5 for an Adam-trained model), with only a 2% training overhead. Remarkably, OSP models exhibit near-zero excess kurtosis (0.04) compared to extreme values (1818.56) in standard models, fundamentally altering LLM quantization behavior. Our work demonstrates that outliers are not inherent to LLMs but are consequences of training strategies, paving the way for more efficient LLM deployment. The source code and pretrained checkpoints are available at https://github.com/dmis-lab/Outlier-Safe-Pre-Training.

Preentrenamiento Seguro contra Valores Atípicos para una Cuantización Robusta de 4 Bits en Modelos de Lenguaje a Gran Escala

Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models

Resumen

Support