Au-delà des valeurs aberrantes : Une étude des optimiseurs sous quantification
Beyond Outliers: A Study of Optimizers Under Quantization
September 27, 2025
papers.authors: Georgios Vlassis, Saleh Ashkboos, Alexandra Volkova, Torsten Hoefler, Dan Alistarh
cs.AI
papers.abstract
Alors que de nouveaux optimiseurs gagnent en popularité et que la quantification des modèles devient une norme pour un déploiement efficace, une question clé se pose : comment le choix de l'optimiseur affecte-t-il les performances du modèle en présence de quantification ? Malgré les progrès dans ces deux domaines, les preuves systématiques sur les interactions entre optimiseurs et quantification restent limitées. Pour combler cette lacune, nous étudions l'impact du choix de l'optimiseur sur la robustesse du modèle sous quantification, en considérant à la fois la quantification post-entraînement (PTQ) et l'entraînement avec prise en compte de la quantification (QAT). Nous commençons par entraîner des modèles en précision complète, allant de 50 millions à 1,5 milliard de paramètres, avec six optimiseurs, afin d'explorer le paysage des hyperparamètres et d'établir des bases de référence bien ajustées. Nous appliquons ensuite la PTQ pour évaluer comment les performances du modèle se dégradent lorsqu'il est entraîné avec différents optimiseurs. Nous constatons que les métriques liées aux valeurs aberrantes, telles que le rapport maximum-moyenne (MMR) et le kurtosis, ne parviennent pas à prédire les performances de la PTQ pour différents optimiseurs. Nous démontrons analytiquement que cela est dû au fait que le MMR ne capture que les erreurs isolées des couches, tout en ignorant la manière dont les erreurs de quantification s'accumulent et se propagent à travers le réseau. Pour étudier la dégradation en QAT, nous entraînons des modèles quantifiés à partir de zéro et les comparons à nos bases de référence en précision d'origine. Nous constatons que les optimiseurs qui performent bien dans le cadre d'entraînement initial peuvent ne pas rester optimaux sous QAT, et que les modèles entraînés avec Shampoo présentent la plus faible dégradation de précision. Enfin, nous dérivons des lois d'échelle pour l'entraînement avec prise en compte de la quantification sous différents optimiseurs, montrant que Shampoo atteint la plus grande efficacité en termes de paramètres parmi tous les optimiseurs testés.
English
As new optimizers gain traction and model quantization becomes standard for
efficient deployment, a key question arises: how does the choice of optimizer
affect model performance in the presence of quantization? Despite progress in
both areas, systematic evidence on optimizer-quantization interactions remains
limited. To fill this gap, we study the impact of optimizer choice on model
robustness under quantization, considering both post-training quantization
(PTQ), and quantization-aware training (QAT). We first train full-precision
models, ranging from 50M to 1.5B parameters, with six optimizers, to explore
the hyperparameter landscape, and establish well-tuned baselines. We then apply
PTQ to evaluate how model performance degrades when trained with different
optimizers. We find that outlier-related metrics, such as the max-to-mean ratio
(MMR) and Kurtosis, fail to predict the PTQ performance across different
optimizers. We show analytically that this is due to the MMR capturing only
isolated layer errors, while ignoring how quantization errors accumulate and
propagate through the network. To study the QAT degradation, we train quantized
models from scratch and compare them to our original-precision baselines. We
find that optimizers performing well in the original pretraining setup may not
remain optimal under QAT, and that models trained with Shampoo show the lowest
accuracy degradation. Finally, we derive scaling laws for quantization-aware
training under different optimizers, showing that Shampoo achieves the highest
parameter efficiency of all tested optimizers.