La Maledizione e la Benedizione del Bias Medio nell'Addestramento di LLM Quantizzati in FP4

Abstract

I modelli linguistici di grandi dimensioni addestrati su linguaggio naturale presentano una marcata anisotropia: un numero ridotto di direzioni concentra un'energia sproporzionata, mentre le dimensioni rimanenti formano una coda semantica ampia. In regimi di addestramento a bassa precisione (low-bit), questa geometria diventa numericamente instabile. Poiché le scale di quantizzazione blocco per blocco sono determinate da magnitudini elementari estreme, le direzioni dominanti dilatano la gamma dinamica, comprimendo la variazione semantica a coda lunga in stretti intervalli numerici (bin). Dimostriamo che questa instabilità è principalmente guidata da un bias di media coerente di rango uno, che costituisce la componente dominante dell'anisotropia spettrale nelle rappresentazioni dei LLM. Questa componente media emerge sistematicamente attraverso i livelli e le fasi di addestramento e rappresenta la maggior parte delle magnitudini di attivazione estreme, rendendola il principale motore dell'inflazione della gamma dinamica in condizioni di bassa precisione. Fondamentalmente, poiché l'instabilità dominante è di rango uno, essa può essere eliminata tramite una semplice operazione di sottrazione della media a livello di sorgente. Questo condizionamento incentrato sul bias recupera la maggior parte dei vantaggi in termini di stabilità dei metodi spettrali basati su SVD, richiedendo solo operazioni di riduzione e kernel di quantizzazione standard. Risultati empirici sull'addestramento in FP4 (W4A4G4) mostrano che la rimozione della media riduce sostanzialmente il divario di loss rispetto al BF16 e ripristina le prestazioni downstream, fornendo un percorso hardware-efficiente per un addestramento stabile di LLM a bassa precisione.

English

Large language models trained on natural language exhibit pronounced anisotropy: a small number of directions concentrate disproportionate energy, while the remaining dimensions form a broad semantic tail. In low-bit training regimes, this geometry becomes numerically unstable. Because blockwise quantization scales are determined by extreme elementwise magnitudes, dominant directions stretch the dynamic range, compressing long-tail semantic variation into narrow numerical bins. We show that this instability is primarily driven by a coherent rank-one mean bias, which constitutes the dominant component of spectral anisotropy in LLM representations. This mean component emerges systematically across layers and training stages and accounts for the majority of extreme activation magnitudes, making it the principal driver of dynamic-range inflation under low precision. Crucially, because the dominant instability is rank-one, it can be eliminated through a simple source-level mean-subtraction operation. This bias-centric conditioning recovers most of the stability benefits of SVD-based spectral methods while requiring only reduction operations and standard quantization kernels. Empirical results on FP4 (W4A4G4) training show that mean removal substantially narrows the loss gap to BF16 and restores downstream performance, providing a hardware-efficient path to stable low-bit LLM training.

La Maledizione e la Benedizione del Bias Medio nell'Addestramento di LLM Quantizzati in FP4

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Abstract

Support