De Vloek en Zegen van Gemiddelde Bias bij FP4-Gekwantiseerde LLM-training

Samenvatting

Grote taalmodellen die op natuurlijke taal zijn getraind, vertonen uitgesproken anisotropie: een klein aantal richtingen concentreert een onevenredige hoeveelheid energie, terwijl de overige dimensies een brede semantische staart vormen. In trainingsregimes met lage bitbreedtes wordt deze geometrie numeriek instabiel. Omdard de schaalfactoren voor bloksgewijze kwantisatie worden bepaald door extreme elementgewijze magnitudes, rekken dominante richtingen het dynamisch bereik op, waardoor semantische variatie in de lange staart wordt samengedrukt in smalle numerieke bins. Wij tonen aan dat deze instabiliteit primair wordt gedreven door een coherente rank-één gemiddelde-bias, die de dominante component vormt van de spectrale anisotropie in LLM-representaties. Deze gemiddelde-component ontstaat systematisch over lagen en trainingsstadia heen en is verantwoordelijk voor de meerderheid van extreme activatiewaarden, waardoor het de belangrijkste drijver is van inflatie van het dynamisch bereik onder lage precisie. Cruciaal is dat, omdat de dominante instabiliteit rank-één is, deze geëlimineerd kan worden door een eenvoudige bronniveau gemiddelde-aftrekking. Deze bias-gerichte conditionering herstelt het grootste deel van de stabiliteitsvoordelen van op SVD gebaseerde spectrale methoden, terwijl alleen reductieoperaties en standaard kwantisatiekernels nodig zijn. Empirische resultaten voor FP4-training (W4A4G4) tonen aan dat gemiddelde-verwijdering de verlieskloof ten opzichte van BF16 aanzienlijk verkleint en de downstream-prestaties herstelt, wat een hardware-efficiënte weg biedt naar stabiele LLM-training met lage bitbreedtes.

English

Large language models trained on natural language exhibit pronounced anisotropy: a small number of directions concentrate disproportionate energy, while the remaining dimensions form a broad semantic tail. In low-bit training regimes, this geometry becomes numerically unstable. Because blockwise quantization scales are determined by extreme elementwise magnitudes, dominant directions stretch the dynamic range, compressing long-tail semantic variation into narrow numerical bins. We show that this instability is primarily driven by a coherent rank-one mean bias, which constitutes the dominant component of spectral anisotropy in LLM representations. This mean component emerges systematically across layers and training stages and accounts for the majority of extreme activation magnitudes, making it the principal driver of dynamic-range inflation under low precision. Crucially, because the dominant instability is rank-one, it can be eliminated through a simple source-level mean-subtraction operation. This bias-centric conditioning recovers most of the stability benefits of SVD-based spectral methods while requiring only reduction operations and standard quantization kernels. Empirical results on FP4 (W4A4G4) training show that mean removal substantially narrows the loss gap to BF16 and restores downstream performance, providing a hardware-efficient path to stable low-bit LLM training.

De Vloek en Zegen van Gemiddelde Bias bij FP4-Gekwantiseerde LLM-training

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Samenvatting

Support