쿼텟 II: 향상된 불편향 기울기 추정을 통한 NVFP4에서의 정확한 LLM 사전 학습
Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation
January 30, 2026
저자: Andrei Panferov, Erik Schultheis, Soroush Tabesh, Dan Alistarh
cs.AI
초록
NVIDIA 블랙웰 GPU에서 하드웨어 지원되는 NVFP4 낮은 정밀도 형식은 LLM과 같은 대규모 모델의 처음부터 끝까지 완전 양자화 사전 학습을 가능하게 할 것으로 기대됩니다. 그러나 기존 양자화 학습 방법은 확률적 반올림(SR)을 통한 더 정확한 편향 없는 양자화 기울기 추정을 위해 이 형식의 표현 능력 일부를 여전히 희생하여, 표준 FP16 및 FP8 학습 대비 뚜렷한 정확도 손실이 발생합니다. 본 논문에서는 SR 대비 2배 이상 낮은 양자화 오차를 가지는, 마이크로 스케일 형식용 새로운 편향 없는 양자화 루틴인 MS-EDEN을 통해 NVFP4 양자화 학습의 최신 기술을 개선합니다. 이를 선형 계층용 새로운 완전 NVFP4 양자화 방식인 Quartet II에 통합합니다. 우리는 Quartet II가 순전파 및 역전파 과정의 모든 주요 행렬 곱셈에서 일관되게 더 나은 기울기 추정을 달성함을 분석적으로 보입니다. 또한, 우리의 제안은 NVFP4에 특화된 최근의 학습 개선 기법과도 시너지를 잘 발휘합니다. 우리는 38B 토큰에 대해 최대 19억 매개변수까지의 LLM 종단간 학습에서 Quartet II를 추가로 검증합니다. NVIDIA 블랙웰 GPU에서 실행 가능하며 BF16 대비 최대 4.2배의 속도 향상을 제공하는 커널을 구현했습니다. 우리의 코드는 https://github.com/IST-DASLab/Quartet-II 에서 이용할 수 있습니다.
English
The NVFP4 lower-precision format, supported in hardware by NVIDIA Blackwell GPUs, promises to allow, for the first time, end-to-end fully-quantized pre-training of massive models such as LLMs. Yet, existing quantized training methods still sacrifice some of the representation capacity of this format in favor of more accurate unbiased quantized gradient estimation by stochastic rounding (SR), losing noticeable accuracy relative to standard FP16 and FP8 training. In this paper, improve the state of the art for quantized training in NVFP4 via a novel unbiased quantization routine for micro-scaled formats, called MS-EDEN, that has more than 2x lower quantization error than SR. We integrate it into a novel fully-NVFP4 quantization scheme for linear layers, called Quartet II. We show analytically that Quartet II achieves consistently better gradient estimation across all major matrix multiplications, both on the forward and on the backward passes. In addition, our proposal synergizes well with recent training improvements aimed specifically at NVFP4. We further validate Quartet II on end-to-end LLM training with up to 1.9B parameters on 38B tokens. We provide kernels for execution on NVIDIA Blackwell GPUs with up to 4.2x speedup over BF16. Our code is available at https://github.com/IST-DASLab/Quartet-II .