Проклятие и благословение среднего смещения при обучении LLM с 4-битной квантизацией

Аннотация

Крупные языковые модели, обученные на естественном языке, демонстрируют выраженную анизотропию: небольшое количество направлений концентрирует непропорционально большую энергию, в то время как остальные измерения образуют широкий семантический "хвост". В режимах низкоразрядного обучения эта геометрия становится численно нестабильной. Поскольку коэффициенты масштабирования при поблочном квантовании определяются экстремальными поэлементными величинами, доминирующие направления растягивают динамический диапазон, сжимая вариации семантического "хвоста" в узкие численные интервалы. Мы показываем, что эта нестабильность в основном обусловлена когерентным смещением среднего значения ранга один, которое составляет доминирующий компонент спектральной анизотропии в представлениях LLM. Этот компонент среднего значения систематически возникает across слоями и этапами обучения и объясняет большинство экстремальных величин активаций, что делает его главным драйвером инфляции динамического диапазона при низкой точности. Ключевым моментом является то, что, поскольку доминирующая нестабильность имеет ранг один, её можно устранить с помощью простой операции вычитания среднего на уровне источника. Такая обусловленность, ориентированная на смещение, восстанавливает большую часть преимуществ стабильности спектральных методов на основе SVD, требуя только операций редукции и стандартных процедур квантования. Эмпирические результаты обучения с FP4 (W4A4G4) показывают, что удаление среднего значения существенно сокращает разрыв в потере по сравнению с BF16 и восстанавливает производительность на downstream-задачах, предоставляя аппаратно-эффективный путь к стабильному низкоразрядному обучению LLM.

English

Large language models trained on natural language exhibit pronounced anisotropy: a small number of directions concentrate disproportionate energy, while the remaining dimensions form a broad semantic tail. In low-bit training regimes, this geometry becomes numerically unstable. Because blockwise quantization scales are determined by extreme elementwise magnitudes, dominant directions stretch the dynamic range, compressing long-tail semantic variation into narrow numerical bins. We show that this instability is primarily driven by a coherent rank-one mean bias, which constitutes the dominant component of spectral anisotropy in LLM representations. This mean component emerges systematically across layers and training stages and accounts for the majority of extreme activation magnitudes, making it the principal driver of dynamic-range inflation under low precision. Crucially, because the dominant instability is rank-one, it can be eliminated through a simple source-level mean-subtraction operation. This bias-centric conditioning recovers most of the stability benefits of SVD-based spectral methods while requiring only reduction operations and standard quantization kernels. Empirical results on FP4 (W4A4G4) training show that mean removal substantially narrows the loss gap to BF16 and restores downstream performance, providing a hardware-efficient path to stable low-bit LLM training.

Проклятие и благословение среднего смещения при обучении LLM с 4-битной квантизацией

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Аннотация

Support