Voorbij Uitschieters: Een Onderzoek naar Optimalisatoren onder Kwantisatie
Beyond Outliers: A Study of Optimizers Under Quantization
September 27, 2025
Auteurs: Georgios Vlassis, Saleh Ashkboos, Alexandra Volkova, Torsten Hoefler, Dan Alistarh
cs.AI
Samenvatting
Naarmate nieuwe optimalisatoren aan populariteit winnen en modelkwantisering standaard wordt voor efficiënte implementatie, rijst een belangrijke vraag: hoe beïnvloedt de keuze van de optimalisator de modelprestaties in aanwezigheid van kwantisering? Ondanks vooruitgang in beide gebieden, blijft systematisch bewijs over de interacties tussen optimalisator en kwantisering beperkt. Om deze leemte op te vullen, bestuderen we de impact van de keuze van de optimalisator op de robuustheid van het model onder kwantisering, waarbij we zowel post-training kwantisering (PTQ) als kwantisering-bewuste training (QAT) in overweging nemen. We trainen eerst full-precision modellen, variërend van 50M tot 1.5B parameters, met zes optimalisatoren, om het hyperparameterlandschap te verkennen en goed afgestemde basislijnen vast te stellen. Vervolgens passen we PTQ toe om te evalueren hoe de modelprestaties verslechteren wanneer ze met verschillende optimalisatoren zijn getraind. We constateren dat uitbijter-gerelateerde metrieken, zoals de max-to-mean ratio (MMR) en Kurtosis, niet in staat zijn om de PTQ-prestaties over verschillende optimalisatoren te voorspellen. We tonen analytisch aan dat dit komt doordat de MMR alleen geïsoleerde laagfouten vastlegt, terwijl wordt genegeerd hoe kwantisatiefouten zich ophopen en door het netwerk verspreiden. Om de QAT-degradatie te bestuderen, trainen we gekwantiseerde modellen vanaf nul en vergelijken we deze met onze oorspronkelijke precisie-basislijnen. We constateren dat optimalisatoren die goed presteren in de oorspronkelijke voor-trainingsopzet niet noodzakelijk optimaal blijven onder QAT, en dat modellen die met Shampoo zijn getraind de laagste nauwkeurigheidsdegradatie vertonen. Ten slotte leiden we schaalwetten af voor kwantisering-bewuste training onder verschillende optimalisatoren, waaruit blijkt dat Shampoo de hoogste parameter-efficiëntie bereikt van alle geteste optimalisatoren.
English
As new optimizers gain traction and model quantization becomes standard for
efficient deployment, a key question arises: how does the choice of optimizer
affect model performance in the presence of quantization? Despite progress in
both areas, systematic evidence on optimizer-quantization interactions remains
limited. To fill this gap, we study the impact of optimizer choice on model
robustness under quantization, considering both post-training quantization
(PTQ), and quantization-aware training (QAT). We first train full-precision
models, ranging from 50M to 1.5B parameters, with six optimizers, to explore
the hyperparameter landscape, and establish well-tuned baselines. We then apply
PTQ to evaluate how model performance degrades when trained with different
optimizers. We find that outlier-related metrics, such as the max-to-mean ratio
(MMR) and Kurtosis, fail to predict the PTQ performance across different
optimizers. We show analytically that this is due to the MMR capturing only
isolated layer errors, while ignoring how quantization errors accumulate and
propagate through the network. To study the QAT degradation, we train quantized
models from scratch and compare them to our original-precision baselines. We
find that optimizers performing well in the original pretraining setup may not
remain optimal under QAT, and that models trained with Shampoo show the lowest
accuracy degradation. Finally, we derive scaling laws for quantization-aware
training under different optimizers, showing that Shampoo achieves the highest
parameter efficiency of all tested optimizers.