Oltre gli Outlier: Uno Studio sugli Ottimizzatori Sotto Quantizzazione
Beyond Outliers: A Study of Optimizers Under Quantization
September 27, 2025
Autori: Georgios Vlassis, Saleh Ashkboos, Alexandra Volkova, Torsten Hoefler, Dan Alistarh
cs.AI
Abstract
Man mano che nuovi ottimizzatori guadagnano popolarità e la quantizzazione dei modelli diventa uno standard per il deployment efficiente, sorge una domanda cruciale: come la scelta dell'ottimizzatore influisce sulle prestazioni del modello in presenza di quantizzazione? Nonostante i progressi in entrambi i campi, le evidenze sistematiche sulle interazioni tra ottimizzatore e quantizzazione rimangono limitate. Per colmare questa lacuna, studiamo l'impatto della scelta dell'ottimizzatore sulla robustezza del modello sotto quantizzazione, considerando sia la quantizzazione post-addestramento (PTQ) che l'addestramento con consapevolezza della quantizzazione (QAT). Iniziamo addestrando modelli in precisione completa, con dimensioni che vanno da 50M a 1.5B parametri, utilizzando sei ottimizzatori, per esplorare il panorama degli iperparametri e stabilire baseline ben ottimizzate. Successivamente, applichiamo la PTQ per valutare come le prestazioni del modello si degradano quando addestrati con diversi ottimizzatori. Scopriamo che metriche legate agli outlier, come il rapporto massimo-media (MMR) e la Curtosi, non riescono a prevedere le prestazioni della PTQ tra diversi ottimizzatori. Dimostriamo analiticamente che ciò è dovuto al fatto che l'MMR cattura solo errori isolati a livello di strato, ignorando come gli errori di quantizzazione si accumulano e si propagano attraverso la rete. Per studiare la degradazione nella QAT, addestriamo modelli quantizzati da zero e li confrontiamo con le nostre baseline in precisione originale. Troviamo che gli ottimizzatori che performano bene nella configurazione di pre-addestramento originale potrebbero non rimanere ottimali sotto QAT, e che i modelli addestrati con Shampoo mostrano la più bassa degradazione dell'accuratezza. Infine, deriviamo leggi di scalabilità per l'addestramento con consapevolezza della quantizzazione sotto diversi ottimizzatori, dimostrando che Shampoo raggiunge la più alta efficienza parametrica tra tutti gli ottimizzatori testati.
English
As new optimizers gain traction and model quantization becomes standard for
efficient deployment, a key question arises: how does the choice of optimizer
affect model performance in the presence of quantization? Despite progress in
both areas, systematic evidence on optimizer-quantization interactions remains
limited. To fill this gap, we study the impact of optimizer choice on model
robustness under quantization, considering both post-training quantization
(PTQ), and quantization-aware training (QAT). We first train full-precision
models, ranging from 50M to 1.5B parameters, with six optimizers, to explore
the hyperparameter landscape, and establish well-tuned baselines. We then apply
PTQ to evaluate how model performance degrades when trained with different
optimizers. We find that outlier-related metrics, such as the max-to-mean ratio
(MMR) and Kurtosis, fail to predict the PTQ performance across different
optimizers. We show analytically that this is due to the MMR capturing only
isolated layer errors, while ignoring how quantization errors accumulate and
propagate through the network. To study the QAT degradation, we train quantized
models from scratch and compare them to our original-precision baselines. We
find that optimizers performing well in the original pretraining setup may not
remain optimal under QAT, and that models trained with Shampoo show the lowest
accuracy degradation. Finally, we derive scaling laws for quantization-aware
training under different optimizers, showing that Shampoo achieves the highest
parameter efficiency of all tested optimizers.