ChatPaper.aiChatPaper

FP4量子化LLMトレーニングにおける平均バイアスの呪縛と恩恵

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

March 11, 2026
著者: Hengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang
cs.AI

要旨

自然言語で訓練された大規模言語モデルは、顕著な異方性を示す。すなわち、ごく少数の方向に不均衡にエネルギーが集中し、残りの次元は広範な意味的テイルを形成する。低ビット訓練体制では、この幾何学的構造は数値的に不安定になる。ブロック単位の量子化スケールは要素ごとの極値に基づいて決定されるため、優勢な方向がダイナミックレンジを拡張し、ロングテイルの意味的変動を狭い数値ビンに圧縮してしまう。本論文では、この不安定性が主に、コヒーレントなランク1の平均バイアスによって駆動されることを示す。この平均成分はLLM表現のスペクトル異方性の主要因を構成しており、層や訓練段階を系統的に横断して出現し、極端な活性化値の大部分を占めるため、低精度条件下におけるダイナミックレンジ膨張の主要因となっている。決定的に重要なのは、この主要な不安定性がランク1であるため、単純なソースレベルの平均減算操作によって除去可能である点である。このバイアス中心の条件付けは、SVDに基づくスペクトル法の安定化効果の大半を維持しつつ、縮約操作と標準的な量子化カーネルのみを必要とする。FP4(W4A4G4)訓練における実証結果から、平均除去がBF16との損失差を大幅に縮小し、下流タスクの性能を回復させ、ハードウェア効率の良い低ビットLLM訓練の実現経路を提供することが示された。
English
Large language models trained on natural language exhibit pronounced anisotropy: a small number of directions concentrate disproportionate energy, while the remaining dimensions form a broad semantic tail. In low-bit training regimes, this geometry becomes numerically unstable. Because blockwise quantization scales are determined by extreme elementwise magnitudes, dominant directions stretch the dynamic range, compressing long-tail semantic variation into narrow numerical bins. We show that this instability is primarily driven by a coherent rank-one mean bias, which constitutes the dominant component of spectral anisotropy in LLM representations. This mean component emerges systematically across layers and training stages and accounts for the majority of extreme activation magnitudes, making it the principal driver of dynamic-range inflation under low precision. Crucially, because the dominant instability is rank-one, it can be eliminated through a simple source-level mean-subtraction operation. This bias-centric conditioning recovers most of the stability benefits of SVD-based spectral methods while requiring only reduction operations and standard quantization kernels. Empirical results on FP4 (W4A4G4) training show that mean removal substantially narrows the loss gap to BF16 and restores downstream performance, providing a hardware-efficient path to stable low-bit LLM training.
PDF62March 15, 2026