Loi d'échelle pour l'entraînement prenant en compte la quantification
Scaling Law for Quantization-Aware Training
May 20, 2025
Auteurs: Mengzhao Chen, Chaoyi Zhang, Jing Liu, Yutao Zeng, Zeyue Xue, Zhiheng Liu, Yunshui Li, Jin Ma, Jie Huang, Xun Zhou, Ping Luo
cs.AI
Résumé
Les grands modèles de langage (LLMs) nécessitent des ressources computationnelles et mémoire substantielles, posant des défis de déploiement. L'apprentissage avec prise en compte de la quantification (QAT) aborde ces défis en réduisant la précision du modèle tout en maintenant ses performances. Cependant, le comportement de mise à l'échelle du QAT, en particulier à une précision de 4 bits (W4A4), n'est pas bien compris. Les lois de mise à l'échelle existantes du QAT ignorent souvent des facteurs clés tels que le nombre de tokens d'entraînement et la granularité de la quantification, ce qui limite leur applicabilité. Cet article propose une loi de mise à l'échelle unifiée pour le QAT qui modélise l'erreur de quantification en fonction de la taille du modèle, du volume de données d'entraînement et de la taille des groupes de quantification. À travers 268 expériences de QAT, nous montrons que l'erreur de quantification diminue avec l'augmentation de la taille du modèle, mais augmente avec plus de tokens d'entraînement et une granularité de quantification plus grossière. Pour identifier les sources de l'erreur de quantification W4A4, nous la décomposons en composantes de poids et d'activation. Les deux composantes suivent la tendance globale de l'erreur de quantification W4A4, mais avec des sensibilités différentes. Plus précisément, l'erreur de quantification des poids augmente plus rapidement avec plus de tokens d'entraînement. Une analyse plus approfondie montre que l'erreur de quantification des activations dans la couche FC2, causée par des valeurs aberrantes, est le principal goulot d'étranglement de l'erreur de quantification W4A4 du QAT. En appliquant une quantification à précision mixte pour résoudre ce goulot d'étranglement, nous démontrons que les erreurs de quantification des poids et des activations peuvent converger vers des niveaux similaires. De plus, avec plus de données d'entraînement, l'erreur de quantification des poids finit par dépasser celle des activations, suggérant que la réduction de l'erreur de quantification des poids est également importante dans de tels scénarios. Ces résultats offrent des insights clés pour améliorer la recherche et le développement du QAT.
English
Large language models (LLMs) demand substantial computational and memory
resources, creating deployment challenges. Quantization-aware training (QAT)
addresses these challenges by reducing model precision while maintaining
performance. However, the scaling behavior of QAT, especially at 4-bit
precision (W4A4), is not well understood. Existing QAT scaling laws often
ignore key factors such as the number of training tokens and quantization
granularity, which limits their applicability. This paper proposes a unified
scaling law for QAT that models quantization error as a function of model size,
training data volume, and quantization group size. Through 268 QAT experiments,
we show that quantization error decreases as model size increases, but rises
with more training tokens and coarser quantization granularity. To identify the
sources of W4A4 quantization error, we decompose it into weight and activation
components. Both components follow the overall trend of W4A4 quantization
error, but with different sensitivities. Specifically, weight quantization
error increases more rapidly with more training tokens. Further analysis shows
that the activation quantization error in the FC2 layer, caused by outliers, is
the primary bottleneck of W4A4 QAT quantization error. By applying
mixed-precision quantization to address this bottleneck, we demonstrate that
weight and activation quantization errors can converge to similar levels.
Additionally, with more training data, weight quantization error eventually
exceeds activation quantization error, suggesting that reducing weight
quantization error is also important in such scenarios. These findings offer
key insights for improving QAT research and development.Summary
AI-Generated Summary