Jenseits von Ausreißern: Eine Studie zu Optimierern unter Quantisierung
Beyond Outliers: A Study of Optimizers Under Quantization
September 27, 2025
papers.authors: Georgios Vlassis, Saleh Ashkboos, Alexandra Volkova, Torsten Hoefler, Dan Alistarh
cs.AI
papers.abstract
Da neue Optimierer an Bedeutung gewinnen und die Modellquantisierung zum Standard für die effiziente Bereitstellung wird, stellt sich eine zentrale Frage: Wie beeinflusst die Wahl des Optimierers die Modellleistung in Gegenwart von Quantisierung? Trotz Fortschritten in beiden Bereichen bleibt systematische Evidenz zu den Wechselwirkungen zwischen Optimierer und Quantisierung begrenzt. Um diese Lücke zu schließen, untersuchen wir die Auswirkungen der Optimiererwahl auf die Modellrobustheit unter Quantisierung, wobei sowohl die Quantisierung nach dem Training (Post-Training Quantization, PTQ) als auch die quantisierungsbewusste Ausbildung (Quantization-Aware Training, QAT) berücksichtigt werden. Zunächst trainieren wir Modelle mit voller Präzision, die zwischen 50 Millionen und 1,5 Milliarden Parametern umfassen, mit sechs verschiedenen Optimierern, um den Hyperparameterraum zu erkunden und gut abgestimmte Baselines zu etablieren. Anschließend wenden wir PTQ an, um zu bewerten, wie sich die Modellleistung verschlechtert, wenn mit verschiedenen Optimierern trainiert wurde. Wir stellen fest, dass Ausreißer-bezogene Metriken wie das Maximal-zu-Mittel-Verhältnis (Max-to-Mean Ratio, MMR) und die Kurtosis die PTQ-Leistung über verschiedene Optimierer hinweg nicht vorhersagen können. Wir zeigen analytisch, dass dies darauf zurückzuführen ist, dass das MMR nur isolierte Schichtfehler erfasst, während es ignoriert, wie sich Quantisierungsfehler im Netzwerk akkumulieren und ausbreiten. Um die QAT-Verschlechterung zu untersuchen, trainieren wir quantisierte Modelle von Grund auf und vergleichen sie mit unseren Baselines in Originalpräzision. Wir stellen fest, dass Optimierer, die im ursprünglichen Vortrainingssetup gut abschneiden, unter QAT nicht unbedingt optimal bleiben, und dass Modelle, die mit Shampoo trainiert wurden, die geringste Genauigkeitsverschlechterung aufweisen. Schließlich leiten wir Skalierungsgesetze für die quantisierungsbewusste Ausbildung unter verschiedenen Optimierern ab und zeigen, dass Shampoo die höchste Parametereffizienz aller getesteten Optimierer erreicht.
English
As new optimizers gain traction and model quantization becomes standard for
efficient deployment, a key question arises: how does the choice of optimizer
affect model performance in the presence of quantization? Despite progress in
both areas, systematic evidence on optimizer-quantization interactions remains
limited. To fill this gap, we study the impact of optimizer choice on model
robustness under quantization, considering both post-training quantization
(PTQ), and quantization-aware training (QAT). We first train full-precision
models, ranging from 50M to 1.5B parameters, with six optimizers, to explore
the hyperparameter landscape, and establish well-tuned baselines. We then apply
PTQ to evaluate how model performance degrades when trained with different
optimizers. We find that outlier-related metrics, such as the max-to-mean ratio
(MMR) and Kurtosis, fail to predict the PTQ performance across different
optimizers. We show analytically that this is due to the MMR capturing only
isolated layer errors, while ignoring how quantization errors accumulate and
propagate through the network. To study the QAT degradation, we train quantized
models from scratch and compare them to our original-precision baselines. We
find that optimizers performing well in the original pretraining setup may not
remain optimal under QAT, and that models trained with Shampoo show the lowest
accuracy degradation. Finally, we derive scaling laws for quantization-aware
training under different optimizers, showing that Shampoo achieves the highest
parameter efficiency of all tested optimizers.