ChatPaper.aiChatPaper

Pré-treinamento Seguro para Outliers para Quantização Robusta de 4 Bits em Modelos de Linguagem de Grande Escala

Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models

June 24, 2025
Autores: Jungwoo Park, Taewhoo Lee, Chanwoong Yoon, Hyeon Hwang, Jaewoo Kang
cs.AI

Resumo

Outliers extremos de ativação em Modelos de Linguagem de Grande Escala (LLMs) degradam criticamente o desempenho da quantização, dificultando a implantação eficiente em dispositivos. Embora operações por canal e escalonamento adaptativo de gradiente sejam causas reconhecidas, a mitigação prática permanece desafiadora. Introduzimos o Pré-Treinamento Seguro contra Outliers (Outlier-Safe Pre-Training, OSP), uma diretriz prática que previne proativamente a formação de outliers, em vez de depender de mitigação pós-treinamento. O OSP combina três inovações principais: (1) o otimizador Muon, que elimina bases privilegiadas enquanto mantém a eficiência do treinamento; (2) o RMSNorm de Escala Única, que previne a amplificação por canal; e (3) uma projeção de embeddings aprendível, que redistribui as magnitudes de ativação originadas de matrizes de embeddings. Validamos o OSP treinando um modelo de 1,4 bilhão de parâmetros em 1 trilhão de tokens, que é o primeiro LLM em escala de produção treinado sem tais outliers. Sob uma quantização agressiva de 4 bits, nosso modelo OSP alcança uma pontuação média de 35,7 em 10 benchmarks (comparado a 26,5 para um modelo treinado com Adam), com apenas 2% de sobrecarga no treinamento. Notavelmente, os modelos OSP exibem curtose excessiva próxima de zero (0,04) em comparação com valores extremos (1818,56) em modelos padrão, alterando fundamentalmente o comportamento de quantização de LLMs. Nosso trabalho demonstra que os outliers não são inerentes aos LLMs, mas consequências de estratégias de treinamento, abrindo caminho para uma implantação mais eficiente de LLMs. O código-fonte e os checkpoints pré-treinados estão disponíveis em https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
English
Extreme activation outliers in Large Language Models (LLMs) critically degrade quantization performance, hindering efficient on-device deployment. While channel-wise operations and adaptive gradient scaling are recognized causes, practical mitigation remains challenging. We introduce Outlier-Safe Pre-Training (OSP), a practical guideline that proactively prevents outlier formation rather than relying on post-hoc mitigation. OSP combines three key innovations: (1) the Muon optimizer, eliminating privileged bases while maintaining training efficiency; (2) Single-Scale RMSNorm, preventing channel-wise amplification; and (3) a learnable embedding projection, redistributing activation magnitudes originating from embedding matrices. We validate OSP by training a 1.4B-parameter model on 1 trillion tokens, which is the first production-scale LLM trained without such outliers. Under aggressive 4-bit quantization, our OSP model achieves a 35.7 average score across 10 benchmarks (compared to 26.5 for an Adam-trained model), with only a 2% training overhead. Remarkably, OSP models exhibit near-zero excess kurtosis (0.04) compared to extreme values (1818.56) in standard models, fundamentally altering LLM quantization behavior. Our work demonstrates that outliers are not inherent to LLMs but are consequences of training strategies, paving the way for more efficient LLM deployment. The source code and pretrained checkpoints are available at https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
PDF445June 26, 2025