Der Fluch und Segen der mittleren Verzerrung beim FP4-quantisierten Training großer Sprachmodelle

Zusammenfassung

Große Sprachmodelle, die auf natürlicher Sprache trainiert werden, weisen eine ausgeprägte Anisotropie auf: Eine geringe Anzahl von Richtungen konzentriert unverhältnismäßig viel Energie, während die verbleibenden Dimensionen einen breiten semantischen Ausläufer bilden. In Trainingsregimen mit niedriger Bitzahl wird diese Geometrie numerisch instabil. Da die blockweisen Quantisierungsskalen durch extreme elementweise Größen bestimmt werden, dehnen dominante Richtungen den dynamischen Bereich, was semantische Variationen im langen Ausläufer in enge numerische Intervalle komprimiert. Wir zeigen, dass diese Instabilität primär durch einen kohärenten Rang-1-Mittelwertbias verursacht wird, der die dominante Komponente der spektralen Anisotropie in LLM-Repräsentationen darstellt. Diese Mittelwertkomponente tritt systematisch über Schichten und Trainingsstadien hinweg auf und ist für die Mehrheit der extremen Aktivierungsgrößen verantwortlich, was sie zum Haupttreiber der Dynamikbereichsausdehnung unter niedriger Präzision macht. Entscheidend ist, dass diese dominante Instabilität, da sie Rang-1 ist, durch eine einfache Mittelwertsubtraktion auf Quellenebene beseitigt werden kann. Diese bias-zentrierte Konditionierung erzielt den Großteil der Stabilitätsvorteile spektraler SVD-basierter Methoden, erfordert jedoch nur Reduktionsoperationen und standardmäßige Quantisierungskernel. Empirische Ergebnisse beim FP4-Training (W4A4G4) zeigen, dass die Mittelwertentfernung die Verlustlücke zu BF16 erheblich verringert und die nachgelagerte Leistung wiederherstellt, was einen hardwareeffizienten Weg zu stabilem LLM-Training mit niedriger Bitzahl eröffnet.

English

Large language models trained on natural language exhibit pronounced anisotropy: a small number of directions concentrate disproportionate energy, while the remaining dimensions form a broad semantic tail. In low-bit training regimes, this geometry becomes numerically unstable. Because blockwise quantization scales are determined by extreme elementwise magnitudes, dominant directions stretch the dynamic range, compressing long-tail semantic variation into narrow numerical bins. We show that this instability is primarily driven by a coherent rank-one mean bias, which constitutes the dominant component of spectral anisotropy in LLM representations. This mean component emerges systematically across layers and training stages and accounts for the majority of extreme activation magnitudes, making it the principal driver of dynamic-range inflation under low precision. Crucially, because the dominant instability is rank-one, it can be eliminated through a simple source-level mean-subtraction operation. This bias-centric conditioning recovers most of the stability benefits of SVD-based spectral methods while requiring only reduction operations and standard quantization kernels. Empirical results on FP4 (W4A4G4) training show that mean removal substantially narrows the loss gap to BF16 and restores downstream performance, providing a hardware-efficient path to stable low-bit LLM training.

Der Fluch und Segen der mittleren Verzerrung beim FP4-quantisierten Training großer Sprachmodelle

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Zusammenfassung

Support