Schaalwet voor Kwantisatiebewuste Training
Scaling Law for Quantization-Aware Training
May 20, 2025
Auteurs: Mengzhao Chen, Chaoyi Zhang, Jing Liu, Yutao Zeng, Zeyue Xue, Zhiheng Liu, Yunshui Li, Jin Ma, Jie Huang, Xun Zhou, Ping Luo
cs.AI
Samenvatting
Grote taalmodellen (LLM's) vereisen aanzienlijke reken- en geheugenbronnen, wat uitdagingen oplevert bij de implementatie. Quantization-aware training (QAT) gaat deze uitdagingen te lijf door de precisie van het model te verlagen terwijl de prestaties behouden blijven. Het schaalgedrag van QAT, vooral bij 4-bit precisie (W4A4), is echter nog niet goed begrepen. Bestaande schaalwetten voor QAT negeren vaak belangrijke factoren zoals het aantal trainings-tokens en de quantisatiegranulariteit, wat hun toepasbaarheid beperkt. Dit artikel stelt een geünificeerde schaalwet voor QAT voor die de quantisatiefout modelleert als een functie van modelgrootte, trainingsdatavolume en quantisatiegroepsgrootte. Door middel van 268 QAT-experimenten laten we zien dat de quantisatiefout afneemt naarmate de modelgrootte toeneemt, maar stijgt bij meer trainings-tokens en grovere quantisatiegranulariteit. Om de bronnen van W4A4-quantisatiefout te identificeren, ontleden we deze in gewichts- en activatiecomponenten. Beide componenten volgen de algemene trend van W4A4-quantisatiefout, maar met verschillende gevoeligheden. Specifiek neemt de gewichtsquantisatiefout sneller toe bij meer trainings-tokens. Verdere analyse toont aan dat de activatiequantisatiefout in de FC2-laag, veroorzaakt door uitschieters, de primaire bottleneck is van W4A4 QAT-quantisatiefout. Door mixed-precision quantisatie toe te passen om deze bottleneck aan te pakken, laten we zien dat gewichts- en activatiequantisatiefouten naar vergelijkbare niveaus kunnen convergeren. Bovendien overschrijdt de gewichtsquantisatiefout bij meer trainingsdata uiteindelijk de activatiequantisatiefout, wat suggereert dat het verminderen van de gewichtsquantisatiefout ook belangrijk is in dergelijke scenario's. Deze bevindingen bieden belangrijke inzichten voor het verbeteren van QAT-onderzoek en -ontwikkeling.
English
Large language models (LLMs) demand substantial computational and memory
resources, creating deployment challenges. Quantization-aware training (QAT)
addresses these challenges by reducing model precision while maintaining
performance. However, the scaling behavior of QAT, especially at 4-bit
precision (W4A4), is not well understood. Existing QAT scaling laws often
ignore key factors such as the number of training tokens and quantization
granularity, which limits their applicability. This paper proposes a unified
scaling law for QAT that models quantization error as a function of model size,
training data volume, and quantization group size. Through 268 QAT experiments,
we show that quantization error decreases as model size increases, but rises
with more training tokens and coarser quantization granularity. To identify the
sources of W4A4 quantization error, we decompose it into weight and activation
components. Both components follow the overall trend of W4A4 quantization
error, but with different sensitivities. Specifically, weight quantization
error increases more rapidly with more training tokens. Further analysis shows
that the activation quantization error in the FC2 layer, caused by outliers, is
the primary bottleneck of W4A4 QAT quantization error. By applying
mixed-precision quantization to address this bottleneck, we demonstrate that
weight and activation quantization errors can converge to similar levels.
Additionally, with more training data, weight quantization error eventually
exceeds activation quantization error, suggesting that reducing weight
quantization error is also important in such scenarios. These findings offer
key insights for improving QAT research and development.