Skalierungsgesetz für Quantisierungsbewusstes Training
Scaling Law for Quantization-Aware Training
May 20, 2025
Autoren: Mengzhao Chen, Chaoyi Zhang, Jing Liu, Yutao Zeng, Zeyue Xue, Zhiheng Liu, Yunshui Li, Jin Ma, Jie Huang, Xun Zhou, Ping Luo
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) erfordern erhebliche Rechen- und Speicherressourcen, was Herausforderungen bei der Bereitstellung mit sich bringt. Quantisierungsbewusstes Training (QAT) adressiert diese Herausforderungen, indem es die Modellpräzision reduziert, während die Leistung erhalten bleibt. Das Skalierungsverhalten von QAT, insbesondere bei 4-Bit-Präzision (W4A4), ist jedoch nicht gut verstanden. Bestehende QAT-Skalierungsgesetze ignorieren oft Schlüsselfaktoren wie die Anzahl der Trainings-Tokens und die Quantisierungsgranularität, was ihre Anwendbarkeit einschränkt. Dieses Papier schlägt ein einheitliches Skalierungsgesetz für QAT vor, das den Quantisierungsfehler als Funktion der Modellgröße, des Trainingsdatenvolumens und der Quantisierungsgruppengröße modelliert. Durch 268 QAT-Experimente zeigen wir, dass der Quantisierungsfehler mit zunehmender Modellgröße abnimmt, aber mit mehr Trainings-Tokens und gröberer Quantisierungsgranularität ansteigt. Um die Quellen des W4A4-Quantisierungsfehlers zu identifizieren, zerlegen wir ihn in Gewichts- und Aktivierungskomponenten. Beide Komponenten folgen dem allgemeinen Trend des W4A4-Quantisierungsfehlers, jedoch mit unterschiedlichen Sensitivitäten. Insbesondere steigt der Gewichtsquantisierungsfehler schneller mit mehr Trainings-Tokens an. Eine weitere Analyse zeigt, dass der Aktivierungsquantisierungsfehler in der FC2-Schicht, verursacht durch Ausreißer, der primäre Engpass des W4A4-QAT-Quantisierungsfehlers ist. Durch die Anwendung von gemischter Präzisionsquantisierung zur Behebung dieses Engpasses demonstrieren wir, dass Gewichts- und Aktivierungsquantisierungsfehler auf ähnliche Niveaus konvergieren können. Zusätzlich übersteigt der Gewichtsquantisierungsfehler mit mehr Trainingsdaten schließlich den Aktivierungsquantisierungsfehler, was darauf hindeutet, dass die Reduzierung des Gewichtsquantisierungsfehlers in solchen Szenarien ebenfalls wichtig ist. Diese Erkenntnisse bieten wichtige Einblicke für die Verbesserung der QAT-Forschung und -Entwicklung.
English
Large language models (LLMs) demand substantial computational and memory
resources, creating deployment challenges. Quantization-aware training (QAT)
addresses these challenges by reducing model precision while maintaining
performance. However, the scaling behavior of QAT, especially at 4-bit
precision (W4A4), is not well understood. Existing QAT scaling laws often
ignore key factors such as the number of training tokens and quantization
granularity, which limits their applicability. This paper proposes a unified
scaling law for QAT that models quantization error as a function of model size,
training data volume, and quantization group size. Through 268 QAT experiments,
we show that quantization error decreases as model size increases, but rises
with more training tokens and coarser quantization granularity. To identify the
sources of W4A4 quantization error, we decompose it into weight and activation
components. Both components follow the overall trend of W4A4 quantization
error, but with different sensitivities. Specifically, weight quantization
error increases more rapidly with more training tokens. Further analysis shows
that the activation quantization error in the FC2 layer, caused by outliers, is
the primary bottleneck of W4A4 QAT quantization error. By applying
mixed-precision quantization to address this bottleneck, we demonstrate that
weight and activation quantization errors can converge to similar levels.
Additionally, with more training data, weight quantization error eventually
exceeds activation quantization error, suggesting that reducing weight
quantization error is also important in such scenarios. These findings offer
key insights for improving QAT research and development.Summary
AI-Generated Summary