ChatPaper.aiChatPaper

ECO: フル精度マスタ重みを用いない量子化トレーニング

ECO: Quantized Training without Full-Precision Master Weights

January 29, 2026
著者: Mahdi Nikdan, Amir Zandieh, Dan Alistarh, Vahab Mirrokni
cs.AI

要旨

量子化は大規模言語モデル(LLM)学習の計算効率とメモリ効率を大幅に向上させてきた。しかし、既存の手法では、更新の累積を高精度で行うことに依然として依存している。具体的には、勾配更新はマスタ重みと呼ばれる高精度の重みバッファに適用されなければならない。このバッファは、特にモデルパラメータとオプティマイザの状態がメモリ使用量を支配するスパース混合エキスパート(SMoE)モデルにおいて、多大なメモリオーバーヘッドをもたらす。この問題に対処するため、本論文では誤差補償型オプティマイザ(ECO)を提案する。ECOは更新を量子化されたパラメータに直接適用することでマスタ重みを排除する。ECOは各ステップ後に重みを量子化し、生じた量子化誤差を注意深くオプティマイザのモーメンタムに注入し、追加メモリを必要としない誤差フィードバックループを形成する。標準的な仮定と減衰する学習率の下で、ECOが最適解の定数半径近傍に収束することを証明する。一方、単純にマスタ重みを除去した場合、学習率に反比例する誤差が生じうることを示す。小規模Transformer(30-800M)、Gemma-3 1Bモデル、FP8量子化を用いた2.1BパラメータのSparse MoEモデルの事前学習、およびINT4精度でのDeepSeek-MoE-16Bのファインチューニングにおける実証結果を示す。一貫して、ECOはマスタ重みを使用したベースラインとロスレスに近い精度まで一致し、静的メモリと検証損失のパレートフロンティアを大幅にシフトさせる。
English
Quantization has significantly improved the compute and memory efficiency of Large Language Model (LLM) training. However, existing approaches still rely on accumulating their updates in high-precision: concretely, gradient updates must be applied to a high-precision weight buffer, known as master weights. This buffer introduces substantial memory overhead, particularly for Sparse Mixture of Experts (SMoE) models, where model parameters and optimizer states dominate memory usage. To address this, we introduce the Error-Compensating Optimizer (ECO), which eliminates master weights by applying updates directly to quantized parameters. ECO quantizes weights after each step and carefully injects the resulting quantization error into the optimizer momentum, forming an error-feedback loop with no additional memory. We prove that, under standard assumptions and a decaying learning rate, ECO converges to a constant-radius neighborhood of the optimum, while naive master-weight removal can incur an error that is inversely proportional to the learning rate. We show empirical results for pretraining small Transformers (30-800M), a Gemma-3 1B model, and a 2.1B parameter Sparse MoE model with FP8 quantization, and fine-tuning DeepSeek-MoE-16B in INT4 precision. Throughout, ECO matches baselines with master weights up to near-lossless accuracy, significantly shifting the static memory vs validation loss Pareto frontier.
PDF33January 31, 2026