A Maldição e a Bênção do Viés da Média no Treinamento de LLMs Quantizados em FP4

Resumo

Modelos de linguagem de grande escala treinados em linguagem natural exibem anisotropia pronunciada: um pequeno número de direções concentra energia desproporcional, enquanto as dimensões restantes formam uma cauda semântica ampla. Em regimes de treinamento de baixa precisão, essa geometria torna-se numericamente instável. Como as escalas de quantização em bloco são determinadas por magnitudes elementares extremas, as direções dominantes esticam a faixa dinâmica, comprimindo a variação semântica de cauda longa em bins numéricos estreitos. Demonstramos que essa instabilidade é impulsionada principalmente por um viés de média coerente e de posto um, que constitui o componente dominante da anisotropia espectral nas representações de LLMs. Este componente de média emerge sistematicamente através das camadas e estágios de treinamento e responde pela maioria das magnitudes de ativação extremas, tornando-o o principal motor da inflação da faixa dinâmica sob baixa precisão. Crucialmente, como a instabilidade dominante é de posto um, ela pode ser eliminada através de uma simples operação de subtração de média no nível da fonte. Este condicionamento centrado no viés recupera a maioria dos benefícios de estabilidade dos métodos espectrais baseados em SVD, exigindo apenas operações de redução e kernels de quantização padrão. Resultados empíricos em treinamento FP4 (W4A4G4) mostram que a remoção da média reduz substancialmente a diferença de perda em relação ao BF16 e restaura o desempenho em tarefas subsequentes, fornecendo um caminho eficiente em hardware para o treinamento estável de LLMs em baixa precisão.

English

Large language models trained on natural language exhibit pronounced anisotropy: a small number of directions concentrate disproportionate energy, while the remaining dimensions form a broad semantic tail. In low-bit training regimes, this geometry becomes numerically unstable. Because blockwise quantization scales are determined by extreme elementwise magnitudes, dominant directions stretch the dynamic range, compressing long-tail semantic variation into narrow numerical bins. We show that this instability is primarily driven by a coherent rank-one mean bias, which constitutes the dominant component of spectral anisotropy in LLM representations. This mean component emerges systematically across layers and training stages and accounts for the majority of extreme activation magnitudes, making it the principal driver of dynamic-range inflation under low precision. Crucially, because the dominant instability is rank-one, it can be eliminated through a simple source-level mean-subtraction operation. This bias-centric conditioning recovers most of the stability benefits of SVD-based spectral methods while requiring only reduction operations and standard quantization kernels. Empirical results on FP4 (W4A4G4) training show that mean removal substantially narrows the loss gap to BF16 and restores downstream performance, providing a hardware-efficient path to stable low-bit LLM training.

A Maldição e a Bênção do Viés da Média no Treinamento de LLMs Quantizados em FP4

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Resumo

Support