За пределами выбросов: исследование оптимизаторов при квантовании
Beyond Outliers: A Study of Optimizers Under Quantization
September 27, 2025
Авторы: Georgios Vlassis, Saleh Ashkboos, Alexandra Volkova, Torsten Hoefler, Dan Alistarh
cs.AI
Аннотация
По мере того как новые оптимизаторы набирают популярность, а квантование моделей становится стандартом для эффективного развертывания, возникает ключевой вопрос: как выбор оптимизатора влияет на производительность модели в условиях квантования? Несмотря на прогресс в обеих областях, систематические данные о взаимодействии оптимизаторов и квантования остаются ограниченными. Чтобы заполнить этот пробел, мы изучаем влияние выбора оптимизатора на устойчивость модели при квантовании, рассматривая как посттренировочное квантование (PTQ), так и квантование с учетом обучения (QAT). Сначала мы обучаем модели с полной точностью, варьируя количество параметров от 50 млн до 1,5 млрд, с использованием шести оптимизаторов, чтобы исследовать ландшафт гиперпараметров и установить хорошо настроенные базовые линии. Затем мы применяем PTQ, чтобы оценить, как ухудшается производительность модели при обучении с разными оптимизаторами. Мы обнаруживаем, что метрики, связанные с выбросами, такие как отношение максимума к среднему (MMR) и эксцесс, не позволяют предсказать производительность PTQ для различных оптимизаторов. Мы аналитически показываем, что это связано с тем, что MMR фиксирует только изолированные ошибки слоев, игнорируя накопление и распространение ошибок квантования по сети. Для изучения деградации QAT мы обучаем квантованные модели с нуля и сравниваем их с нашими базовыми линиями с исходной точностью. Мы обнаруживаем, что оптимизаторы, которые хорошо работают в исходной настройке предварительного обучения, могут не оставаться оптимальными при QAT, и что модели, обученные с использованием Shampoo, демонстрируют наименьшее снижение точности. Наконец, мы выводим законы масштабирования для квантования с учетом обучения при различных оптимизаторах, показывая, что Shampoo достигает наивысшей параметрической эффективности среди всех протестированных оптимизаторов.
English
As new optimizers gain traction and model quantization becomes standard for
efficient deployment, a key question arises: how does the choice of optimizer
affect model performance in the presence of quantization? Despite progress in
both areas, systematic evidence on optimizer-quantization interactions remains
limited. To fill this gap, we study the impact of optimizer choice on model
robustness under quantization, considering both post-training quantization
(PTQ), and quantization-aware training (QAT). We first train full-precision
models, ranging from 50M to 1.5B parameters, with six optimizers, to explore
the hyperparameter landscape, and establish well-tuned baselines. We then apply
PTQ to evaluate how model performance degrades when trained with different
optimizers. We find that outlier-related metrics, such as the max-to-mean ratio
(MMR) and Kurtosis, fail to predict the PTQ performance across different
optimizers. We show analytically that this is due to the MMR capturing only
isolated layer errors, while ignoring how quantization errors accumulate and
propagate through the network. To study the QAT degradation, we train quantized
models from scratch and compare them to our original-precision baselines. We
find that optimizers performing well in the original pretraining setup may not
remain optimal under QAT, and that models trained with Shampoo show the lowest
accuracy degradation. Finally, we derive scaling laws for quantization-aware
training under different optimizers, showing that Shampoo achieves the highest
parameter efficiency of all tested optimizers.