Más allá de los valores atípicos: Un estudio de optimizadores bajo cuantización
Beyond Outliers: A Study of Optimizers Under Quantization
September 27, 2025
Autores: Georgios Vlassis, Saleh Ashkboos, Alexandra Volkova, Torsten Hoefler, Dan Alistarh
cs.AI
Resumen
A medida que nuevos optimizadores ganan popularidad y la cuantización de modelos se convierte en un estándar para el despliegue eficiente, surge una pregunta clave: ¿cómo afecta la elección del optimizador al rendimiento del modelo en presencia de cuantización? A pesar de los avances en ambas áreas, la evidencia sistemática sobre las interacciones entre optimizadores y cuantización sigue siendo limitada. Para llenar este vacío, estudiamos el impacto de la elección del optimizador en la robustez del modelo bajo cuantización, considerando tanto la cuantización posterior al entrenamiento (PTQ, por sus siglas en inglés) como el entrenamiento consciente de la cuantización (QAT, por sus siglas en inglés). Primero entrenamos modelos de precisión completa, que van desde 50M hasta 1.5B parámetros, con seis optimizadores, para explorar el panorama de hiperparámetros y establecer líneas base bien ajustadas. Luego aplicamos PTQ para evaluar cómo se degrada el rendimiento del modelo cuando se entrena con diferentes optimizadores. Encontramos que métricas relacionadas con valores atípicos, como la relación máximo a media (MMR, por sus siglas en inglés) y la curtosis, no logran predecir el rendimiento de PTQ en diferentes optimizadores. Demostramos analíticamente que esto se debe a que el MMR captura solo errores aislados en capas, ignorando cómo los errores de cuantización se acumulan y propagan a través de la red. Para estudiar la degradación en QAT, entrenamos modelos cuantizados desde cero y los comparamos con nuestras líneas base de precisión original. Encontramos que los optimizadores que funcionan bien en la configuración de preentrenamiento original pueden no seguir siendo óptimos bajo QAT, y que los modelos entrenados con Shampoo muestran la menor degradación en precisión. Finalmente, derivamos leyes de escalamiento para el entrenamiento consciente de la cuantización bajo diferentes optimizadores, mostrando que Shampoo logra la mayor eficiencia de parámetros entre todos los optimizadores probados.
English
As new optimizers gain traction and model quantization becomes standard for
efficient deployment, a key question arises: how does the choice of optimizer
affect model performance in the presence of quantization? Despite progress in
both areas, systematic evidence on optimizer-quantization interactions remains
limited. To fill this gap, we study the impact of optimizer choice on model
robustness under quantization, considering both post-training quantization
(PTQ), and quantization-aware training (QAT). We first train full-precision
models, ranging from 50M to 1.5B parameters, with six optimizers, to explore
the hyperparameter landscape, and establish well-tuned baselines. We then apply
PTQ to evaluate how model performance degrades when trained with different
optimizers. We find that outlier-related metrics, such as the max-to-mean ratio
(MMR) and Kurtosis, fail to predict the PTQ performance across different
optimizers. We show analytically that this is due to the MMR capturing only
isolated layer errors, while ignoring how quantization errors accumulate and
propagate through the network. To study the QAT degradation, we train quantized
models from scratch and compare them to our original-precision baselines. We
find that optimizers performing well in the original pretraining setup may not
remain optimal under QAT, and that models trained with Shampoo show the lowest
accuracy degradation. Finally, we derive scaling laws for quantization-aware
training under different optimizers, showing that Shampoo achieves the highest
parameter efficiency of all tested optimizers.