外れ値を超えて:量子化下における最適化手法の研究
Beyond Outliers: A Study of Optimizers Under Quantization
September 27, 2025
著者: Georgios Vlassis, Saleh Ashkboos, Alexandra Volkova, Torsten Hoefler, Dan Alistarh
cs.AI
要旨
新しいオプティマイザが注目を集め、モデルの量子化が効率的なデプロイメントの標準となる中で、重要な疑問が浮上している:量子化が存在する状況下で、オプティマイザの選択はモデルの性能にどのような影響を与えるのか?両分野での進展にもかかわらず、オプティマイザと量子化の相互作用に関する体系的な証拠は限られている。このギャップを埋めるため、我々は量子化下でのモデルのロバスト性に対するオプティマイザ選択の影響を、ポストトレーニング量子化(PTQ)と量子化対応トレーニング(QAT)の両方を考慮して研究する。まず、50Mから1.5Bパラメータまでのフル精度モデルを6つのオプティマイザでトレーニングし、ハイパーパラメータの探索を行い、十分に調整されたベースラインを確立する。次に、PTQを適用し、異なるオプティマイザでトレーニングされたモデルの性能がどのように低下するかを評価する。その結果、最大値と平均値の比(MMR)や尖度などの外れ値関連のメトリクスは、異なるオプティマイザ間でのPTQ性能を予測できないことがわかった。これを解析的に示し、MMRが単一の層の誤差しか捉えず、量子化誤差がネットワークを通じて蓄積・伝播する過程を無視しているためであることを明らかにする。QATの性能低下を研究するため、量子化モデルをゼロからトレーニングし、元の精度のベースラインと比較する。その結果、元の事前トレーニング設定で良好な性能を示したオプティマイザがQAT下では最適でなくなる可能性があり、Shampooでトレーニングされたモデルが最も低い精度低下を示すことがわかった。最後に、異なるオプティマイザ下での量子化対応トレーニングのスケーリング則を導出し、Shampooがテストしたすべてのオプティマイザの中で最も高いパラメータ効率を達成することを示す。
English
As new optimizers gain traction and model quantization becomes standard for
efficient deployment, a key question arises: how does the choice of optimizer
affect model performance in the presence of quantization? Despite progress in
both areas, systematic evidence on optimizer-quantization interactions remains
limited. To fill this gap, we study the impact of optimizer choice on model
robustness under quantization, considering both post-training quantization
(PTQ), and quantization-aware training (QAT). We first train full-precision
models, ranging from 50M to 1.5B parameters, with six optimizers, to explore
the hyperparameter landscape, and establish well-tuned baselines. We then apply
PTQ to evaluate how model performance degrades when trained with different
optimizers. We find that outlier-related metrics, such as the max-to-mean ratio
(MMR) and Kurtosis, fail to predict the PTQ performance across different
optimizers. We show analytically that this is due to the MMR capturing only
isolated layer errors, while ignoring how quantization errors accumulate and
propagate through the network. To study the QAT degradation, we train quantized
models from scratch and compare them to our original-precision baselines. We
find that optimizers performing well in the original pretraining setup may not
remain optimal under QAT, and that models trained with Shampoo show the lowest
accuracy degradation. Finally, we derive scaling laws for quantization-aware
training under different optimizers, showing that Shampoo achieves the highest
parameter efficiency of all tested optimizers.