ChatPaper.aiChatPaper

La Dinámica del Entrenamiento Impacta la Robustez de la Cuantización Post-Entrenamiento

Training Dynamics Impact Post-Training Quantization Robustness

October 7, 2025
Autores: Albert Catalan-Tatjer, Niccolò Ajroldi, Jonas Geiping
cs.AI

Resumen

Si bien la cuantización posterior al entrenamiento es ampliamente adoptada para el despliegue eficiente de modelos de lenguaje a gran escala, los mecanismos subyacentes a la robustez de la cuantización siguen sin estar claros. Realizamos un análisis exhaustivo de la degradación por cuantización a lo largo de las trayectorias de entrenamiento de modelos de lenguaje de código abierto con hasta 32B de parámetros y 15T de tokens de entrenamiento, con el fin de evaluar con precisión la relación entre la dinámica del entrenamiento y el rendimiento de la cuantización. Nuestro hallazgo clave es que los errores de cuantización en entrenamientos a gran escala están impulsados por una compleja interacción entre la tasa de aprendizaje y otros hiperparámetros de entrenamiento. Específicamente, una vez que las tasas de aprendizaje decaen, la pérdida de validación y el error de cuantización divergen, en gran medida independientes de la escala de los datos de entrenamiento. Para investigar intervenciones en la dinámica del entrenamiento e identificar configuraciones específicas que puedan modular favorablemente la robustez de la cuantización, entrenamos nuestros propios modelos en experimentos controlados con hasta 100B de tokens. Nuestros resultados desafían la suposición de que aumentar la escala del conjunto de datos compromete inherentemente la efectividad de la cuantización, demostrando en cambio que intervenciones estratégicas en los hiperparámetros de entrenamiento pueden mejorar la calidad de la cuantización a gran escala.
English
While post-training quantization is widely adopted for efficient deployment of large language models, the mechanisms underlying quantization robustness remain unclear. We conduct a comprehensive analysis of quantization degradation across open-source language model training trajectories up to 32B parameters and 15T training tokens to accurately assess the relationship between training dynamics and quantization performance. Our key finding is that quantization errors in large-scale training runs are driven by a complex interplay between learning rate and other training hyperparameters. Specifically, once learning rates decay, validation loss and quantization error diverge, largely independent of training data scale. To investigate interventions on the training dynamics and identify specific configurations that can modulate quantization robustness favorably, we train our own models in controlled experiments up to 100B tokens. Our results challenge the assumption that increasing dataset scale inherently compromises quantization effectiveness, demonstrating instead that strategic training hyperparameter interventions can improve quantization quality at scale.
PDF22October 8, 2025