ChatPaper.aiChatPaper

ECO: 전체 정밀도 마스터 가중치 없이 양자화된 훈련

ECO: Quantized Training without Full-Precision Master Weights

January 29, 2026
저자: Mahdi Nikdan, Amir Zandieh, Dan Alistarh, Vahab Mirrokni
cs.AI

초록

양자화는 대규모 언어 모델(LLM) 학습의 계산 및 메모리 효율을 크게 향상시켰습니다. 그러나 기존 접근법은 여전히 높은 정밀도에서 업데이트를 누적하는 방식에 의존합니다. 구체적으로, 그래디언트 업데이트는 마스터 가중치라고 알려진 높은 정밀도의 가중치 버퍼에 적용되어야 합니다. 이 버퍼는 특히 모델 매개변수와 옵티마이저 상태가 메모리 사용을 지배하는 희소 전문가 혼합(SMoE) 모델에서 상당한 메모리 오버헤드를 초래합니다. 이를 해결하기 위해 우리는 마스터 가중치를 제거하고 업데이트를 양자화된 매개변수에 직접 적용하는 오차 보정 옵티마이저(ECO)를 소개합니다. ECO는 각 단계 후 가중치를 양자화하고 발생한 양자화 오차를 옵티마이저 모멘텀에 신중하게 주입하여 추가 메모리 없이 오차 피드백 루프를 형성합니다. 우리는 표준 가정과 감소하는 학습률 하에서 ECO가 최적점의 일정 반경 내 근방으로 수렴함을 증명하는 반면, 단순한 마스터 가중치 제거는 학습률에 반비례하는 오차를 초래할 수 있음을 보입니다. 우리는 FP8 양자화를 적용한 소형 Transformer(30-800M), Gemma-3 1B 모델, 2.1B 매개변수 희소 MoE 모델의 사전 학습과 INT4 정밀도의 DeepSeek-MoE-16B 미세 조정에 대한 실험 결과를 제시합니다. 전반적으로 ECO는 무손실 정확도에 근접한 수준까지 마스터 가중치를 사용한 기준 모델과 성능을 일치시키며, 정적 메모리 대 검증 손실 파레토 프론티어를 크게 개선합니다.
English
Quantization has significantly improved the compute and memory efficiency of Large Language Model (LLM) training. However, existing approaches still rely on accumulating their updates in high-precision: concretely, gradient updates must be applied to a high-precision weight buffer, known as master weights. This buffer introduces substantial memory overhead, particularly for Sparse Mixture of Experts (SMoE) models, where model parameters and optimizer states dominate memory usage. To address this, we introduce the Error-Compensating Optimizer (ECO), which eliminates master weights by applying updates directly to quantized parameters. ECO quantizes weights after each step and carefully injects the resulting quantization error into the optimizer momentum, forming an error-feedback loop with no additional memory. We prove that, under standard assumptions and a decaying learning rate, ECO converges to a constant-radius neighborhood of the optimum, while naive master-weight removal can incur an error that is inversely proportional to the learning rate. We show empirical results for pretraining small Transformers (30-800M), a Gemma-3 1B model, and a 2.1B parameter Sparse MoE model with FP8 quantization, and fine-tuning DeepSeek-MoE-16B in INT4 precision. Throughout, ECO matches baselines with master weights up to near-lossless accuracy, significantly shifting the static memory vs validation loss Pareto frontier.
PDF33January 31, 2026