ChatPaper.aiChatPaper

FP4 양자화된 LLM 학습에서 평균 편향의 저주와 축복

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

March 11, 2026
저자: Hengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang
cs.AI

초록

자연어로 훈련된 대규모 언어 모델은 뚜렷한 이방성을 보인다. 소수의 방향이 과도한 에너지를 집중시키는 반면, 나머지 차원들은 넓은 의미론적 꼬리를 형성한다. 저비트 훈련 체제에서는 이러한 기하학적 구조가 수치적으로 불안정해진다. 블록별 양자화 척도가 요소별 최대 크기에 의해 결정되기 때문에, 지배적인 방향이 동적 범위를 확장하여 긴 꼬리 형태의 의미론적 변이를 좁은 수치 구간으로 압축하기 때문이다. 본 연구에서는 이러한 불안정성이 주로 응집된 1순위 평균 편향에 의해 발생함을 보인다. 이 편향은 LLM 표현의 스펙트럼 이방성에서 지배적인 구성 요소를 이룬다. 이러한 평균 구성 요소는 계층과 훈련 단계에 걸쳐 체계적으로 나타나며, 대부분의 극단적 활성화 크기를 설명함으로써 저정밀도 조건에서 동적 범위 팽창의 주요 원인이 된다. 중요한 것은 지배적인 불안정성이 1순위 특성을 가지므로, 단순한 소스 수준의 평균 차감 연산을 통해 제거될 수 있다는 점이다. 이러한 편향 중심 조건화는 SVD 기반 스펙트럼 방법의 안정성 이점 대부분을 복구하면서도 축소 연산과 표준 양자화 커널만을 요구한다. FP4(W4A4G4) 훈련에 대한 실험 결과, 평균 제거가 BF16 대비 손실 격차를 현저히 좁히고 하류 작업 성능을 회복하여 하드웨어 효율적인 저비트 LLM 훈련 경로를 제공함을 확인하였다.
English
Large language models trained on natural language exhibit pronounced anisotropy: a small number of directions concentrate disproportionate energy, while the remaining dimensions form a broad semantic tail. In low-bit training regimes, this geometry becomes numerically unstable. Because blockwise quantization scales are determined by extreme elementwise magnitudes, dominant directions stretch the dynamic range, compressing long-tail semantic variation into narrow numerical bins. We show that this instability is primarily driven by a coherent rank-one mean bias, which constitutes the dominant component of spectral anisotropy in LLM representations. This mean component emerges systematically across layers and training stages and accounts for the majority of extreme activation magnitudes, making it the principal driver of dynamic-range inflation under low precision. Crucially, because the dominant instability is rank-one, it can be eliminated through a simple source-level mean-subtraction operation. This bias-centric conditioning recovers most of the stability benefits of SVD-based spectral methods while requiring only reduction operations and standard quantization kernels. Empirical results on FP4 (W4A4G4) training show that mean removal substantially narrows the loss gap to BF16 and restores downstream performance, providing a hardware-efficient path to stable low-bit LLM training.
PDF62March 15, 2026