Além dos Outliers: Um Estudo de Otimizadores sob Quantização
Beyond Outliers: A Study of Optimizers Under Quantization
September 27, 2025
Autores: Georgios Vlassis, Saleh Ashkboos, Alexandra Volkova, Torsten Hoefler, Dan Alistarh
cs.AI
Resumo
À medida que novos otimizadores ganham tração e a quantização de modelos se torna padrão para implantação eficiente, surge uma questão fundamental: como a escolha do otimizador afeta o desempenho do modelo na presença de quantização? Apesar dos avanços em ambas as áreas, evidências sistemáticas sobre as interações entre otimizadores e quantização ainda são limitadas. Para preencher essa lacuna, estudamos o impacto da escolha do otimizador na robustez do modelo sob quantização, considerando tanto a quantização pós-treinamento (PTQ) quanto o treinamento com consciência de quantização (QAT). Primeiro, treinamos modelos de precisão completa, variando de 50M a 1,5B de parâmetros, com seis otimizadores, para explorar o cenário de hiperparâmetros e estabelecer baselines bem ajustados. Em seguida, aplicamos PTQ para avaliar como o desempenho do modelo se degrada quando treinado com diferentes otimizadores. Descobrimos que métricas relacionadas a outliers, como a razão máximo-média (MMR) e a curtose, falham em prever o desempenho da PTQ entre diferentes otimizadores. Mostramos analiticamente que isso ocorre porque a MMR captura apenas erros isolados em camadas, ignorando como os erros de quantização se acumulam e se propagam pela rede. Para estudar a degradação do QAT, treinamos modelos quantizados do zero e os comparamos com nossos baselines de precisão original. Descobrimos que otimizadores que se saem bem na configuração de pré-treinamento original podem não permanecer ótimos sob QAT, e que modelos treinados com Shampoo apresentam a menor degradação de precisão. Por fim, derivamos leis de escalonamento para treinamento com consciência de quantização sob diferentes otimizadores, mostrando que Shampoo alcança a maior eficiência de parâmetros entre todos os otimizadores testados.
English
As new optimizers gain traction and model quantization becomes standard for
efficient deployment, a key question arises: how does the choice of optimizer
affect model performance in the presence of quantization? Despite progress in
both areas, systematic evidence on optimizer-quantization interactions remains
limited. To fill this gap, we study the impact of optimizer choice on model
robustness under quantization, considering both post-training quantization
(PTQ), and quantization-aware training (QAT). We first train full-precision
models, ranging from 50M to 1.5B parameters, with six optimizers, to explore
the hyperparameter landscape, and establish well-tuned baselines. We then apply
PTQ to evaluate how model performance degrades when trained with different
optimizers. We find that outlier-related metrics, such as the max-to-mean ratio
(MMR) and Kurtosis, fail to predict the PTQ performance across different
optimizers. We show analytically that this is due to the MMR capturing only
isolated layer errors, while ignoring how quantization errors accumulate and
propagate through the network. To study the QAT degradation, we train quantized
models from scratch and compare them to our original-precision baselines. We
find that optimizers performing well in the original pretraining setup may not
remain optimal under QAT, and that models trained with Shampoo show the lowest
accuracy degradation. Finally, we derive scaling laws for quantization-aware
training under different optimizers, showing that Shampoo achieves the highest
parameter efficiency of all tested optimizers.