La Malédiction et la Bénédiction du Biais Moyen dans l'Entraînement de LLM Quantifiés en FP4

Résumé

Les grands modèles de langage entraînés sur du texte naturel présentent une anisotropie marquée : un petit nombre de directions concentre une énergie disproportionnée, tandis que les dimensions restantes forment une large queue sémantique. Dans les régimes d'entraînement en basse précision, cette géométrie devient numériquement instable. Étant donné que les échelles de quantification par bloc sont déterminées par les magnitudes élémentaires extrêmes, les directions dominantes étirent la plage dynamique, comprimant les variations sémantiques de longue queue dans des intervalles numériques étroits. Nous montrons que cette instabilité est principalement pilotée par un biais de moyenne cohérent de rang un, qui constitue la composante dominante de l'anisotropie spectrale dans les représentations des LLM. Cette composante moyenne émerge systématiquement à travers les couches et les étapes d'entraînement et explique la majorité des magnitudes d'activation extrêmes, ce qui en fait le principal facteur d'inflation de la plage dynamique en basse précision. De manière cruciale, parce que l'instabilité dominante est de rang un, elle peut être éliminée par une simple opération de soustraction de la moyenne au niveau source. Ce conditionnement centré sur le biais retrouve la plupart des avantages de stabilité des méthodes spectrales basées sur la SVD tout en ne nécessitant que des opérations de réduction et des noyaux de quantification standard. Les résultats empiriques sur l'entraînement en FP4 (W4A4G4) montrent que la suppression de la moyenne réduit considérablement l'écart de perte par rapport au BF16 et restaure les performances en aval, offrant une voie matériellement efficace vers un entraînement stable des LLM en basse précision.

English

Large language models trained on natural language exhibit pronounced anisotropy: a small number of directions concentrate disproportionate energy, while the remaining dimensions form a broad semantic tail. In low-bit training regimes, this geometry becomes numerically unstable. Because blockwise quantization scales are determined by extreme elementwise magnitudes, dominant directions stretch the dynamic range, compressing long-tail semantic variation into narrow numerical bins. We show that this instability is primarily driven by a coherent rank-one mean bias, which constitutes the dominant component of spectral anisotropy in LLM representations. This mean component emerges systematically across layers and training stages and accounts for the majority of extreme activation magnitudes, making it the principal driver of dynamic-range inflation under low precision. Crucially, because the dominant instability is rank-one, it can be eliminated through a simple source-level mean-subtraction operation. This bias-centric conditioning recovers most of the stability benefits of SVD-based spectral methods while requiring only reduction operations and standard quantization kernels. Empirical results on FP4 (W4A4G4) training show that mean removal substantially narrows the loss gap to BF16 and restores downstream performance, providing a hardware-efficient path to stable low-bit LLM training.

La Malédiction et la Bénédiction du Biais Moyen dans l'Entraînement de LLM Quantifiés en FP4

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Résumé

Support