Ley de Escalado para Entrenamiento Consciente de Cuantización
Scaling Law for Quantization-Aware Training
May 20, 2025
Autores: Mengzhao Chen, Chaoyi Zhang, Jing Liu, Yutao Zeng, Zeyue Xue, Zhiheng Liu, Yunshui Li, Jin Ma, Jie Huang, Xun Zhou, Ping Luo
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) requieren recursos computacionales y de memoria sustanciales, lo que plantea desafíos en su implementación. El entrenamiento consciente de cuantización (QAT) aborda estos desafíos al reducir la precisión del modelo manteniendo su rendimiento. Sin embargo, el comportamiento de escalado del QAT, especialmente en precisión de 4 bits (W4A4), no está bien comprendido. Las leyes de escalado de QAT existentes a menudo ignoran factores clave como el número de tokens de entrenamiento y la granularidad de la cuantización, lo que limita su aplicabilidad. Este artículo propone una ley de escalado unificada para QAT que modela el error de cuantización como una función del tamaño del modelo, el volumen de datos de entrenamiento y el tamaño del grupo de cuantización. A través de 268 experimentos de QAT, demostramos que el error de cuantización disminuye a medida que aumenta el tamaño del modelo, pero aumenta con más tokens de entrenamiento y una granularidad de cuantización más gruesa. Para identificar las fuentes del error de cuantización W4A4, lo descomponemos en componentes de peso y activación. Ambos componentes siguen la tendencia general del error de cuantización W4A4, pero con sensibilidades diferentes. Específicamente, el error de cuantización de peso aumenta más rápidamente con más tokens de entrenamiento. Un análisis adicional muestra que el error de cuantización de activación en la capa FC2, causado por valores atípicos, es el principal cuello de botella del error de cuantización W4A4 en QAT. Al aplicar cuantización de precisión mixta para abordar este cuello de botella, demostramos que los errores de cuantización de peso y activación pueden converger a niveles similares. Además, con más datos de entrenamiento, el error de cuantización de peso eventualmente supera al error de cuantización de activación, lo que sugiere que reducir el error de cuantización de peso también es importante en tales escenarios. Estos hallazgos ofrecen ideas clave para mejorar la investigación y desarrollo en QAT.
English
Large language models (LLMs) demand substantial computational and memory
resources, creating deployment challenges. Quantization-aware training (QAT)
addresses these challenges by reducing model precision while maintaining
performance. However, the scaling behavior of QAT, especially at 4-bit
precision (W4A4), is not well understood. Existing QAT scaling laws often
ignore key factors such as the number of training tokens and quantization
granularity, which limits their applicability. This paper proposes a unified
scaling law for QAT that models quantization error as a function of model size,
training data volume, and quantization group size. Through 268 QAT experiments,
we show that quantization error decreases as model size increases, but rises
with more training tokens and coarser quantization granularity. To identify the
sources of W4A4 quantization error, we decompose it into weight and activation
components. Both components follow the overall trend of W4A4 quantization
error, but with different sensitivities. Specifically, weight quantization
error increases more rapidly with more training tokens. Further analysis shows
that the activation quantization error in the FC2 layer, caused by outliers, is
the primary bottleneck of W4A4 QAT quantization error. By applying
mixed-precision quantization to address this bottleneck, we demonstrate that
weight and activation quantization errors can converge to similar levels.
Additionally, with more training data, weight quantization error eventually
exceeds activation quantization error, suggesting that reducing weight
quantization error is also important in such scenarios. These findings offer
key insights for improving QAT research and development.