Oltre gli Outlier: Uno Studio sugli Ottimizzatori Sotto Quantizzazione

Abstract

Man mano che nuovi ottimizzatori guadagnano popolarità e la quantizzazione dei modelli diventa uno standard per il deployment efficiente, sorge una domanda cruciale: come la scelta dell'ottimizzatore influisce sulle prestazioni del modello in presenza di quantizzazione? Nonostante i progressi in entrambi i campi, le evidenze sistematiche sulle interazioni tra ottimizzatore e quantizzazione rimangono limitate. Per colmare questa lacuna, studiamo l'impatto della scelta dell'ottimizzatore sulla robustezza del modello sotto quantizzazione, considerando sia la quantizzazione post-addestramento (PTQ) che l'addestramento con consapevolezza della quantizzazione (QAT). Iniziamo addestrando modelli in precisione completa, con dimensioni che vanno da 50M a 1.5B parametri, utilizzando sei ottimizzatori, per esplorare il panorama degli iperparametri e stabilire baseline ben ottimizzate. Successivamente, applichiamo la PTQ per valutare come le prestazioni del modello si degradano quando addestrati con diversi ottimizzatori. Scopriamo che metriche legate agli outlier, come il rapporto massimo-media (MMR) e la Curtosi, non riescono a prevedere le prestazioni della PTQ tra diversi ottimizzatori. Dimostriamo analiticamente che ciò è dovuto al fatto che l'MMR cattura solo errori isolati a livello di strato, ignorando come gli errori di quantizzazione si accumulano e si propagano attraverso la rete. Per studiare la degradazione nella QAT, addestriamo modelli quantizzati da zero e li confrontiamo con le nostre baseline in precisione originale. Troviamo che gli ottimizzatori che performano bene nella configurazione di pre-addestramento originale potrebbero non rimanere ottimali sotto QAT, e che i modelli addestrati con Shampoo mostrano la più bassa degradazione dell'accuratezza. Infine, deriviamo leggi di scalabilità per l'addestramento con consapevolezza della quantizzazione sotto diversi ottimizzatori, dimostrando che Shampoo raggiunge la più alta efficienza parametrica tra tutti gli ottimizzatori testati.

English

As new optimizers gain traction and model quantization becomes standard for efficient deployment, a key question arises: how does the choice of optimizer affect model performance in the presence of quantization? Despite progress in both areas, systematic evidence on optimizer-quantization interactions remains limited. To fill this gap, we study the impact of optimizer choice on model robustness under quantization, considering both post-training quantization (PTQ), and quantization-aware training (QAT). We first train full-precision models, ranging from 50M to 1.5B parameters, with six optimizers, to explore the hyperparameter landscape, and establish well-tuned baselines. We then apply PTQ to evaluate how model performance degrades when trained with different optimizers. We find that outlier-related metrics, such as the max-to-mean ratio (MMR) and Kurtosis, fail to predict the PTQ performance across different optimizers. We show analytically that this is due to the MMR capturing only isolated layer errors, while ignoring how quantization errors accumulate and propagate through the network. To study the QAT degradation, we train quantized models from scratch and compare them to our original-precision baselines. We find that optimizers performing well in the original pretraining setup may not remain optimal under QAT, and that models trained with Shampoo show the lowest accuracy degradation. Finally, we derive scaling laws for quantization-aware training under different optimizers, showing that Shampoo achieves the highest parameter efficiency of all tested optimizers.

Oltre gli Outlier: Uno Studio sugli Ottimizzatori Sotto Quantizzazione

Beyond Outliers: A Study of Optimizers Under Quantization

Abstract

Support