Legge di Scalabilità per l'Addestramento Consapevole della Quantizzazione
Scaling Law for Quantization-Aware Training
May 20, 2025
Autori: Mengzhao Chen, Chaoyi Zhang, Jing Liu, Yutao Zeng, Zeyue Xue, Zhiheng Liu, Yunshui Li, Jin Ma, Jie Huang, Xun Zhou, Ping Luo
cs.AI
Abstract
I grandi modelli linguistici (LLM) richiedono risorse computazionali e di memoria sostanziali, creando sfide nel loro dispiegamento. L'addestramento consapevole della quantizzazione (QAT) affronta queste sfide riducendo la precisione del modello mantenendo le prestazioni. Tuttavia, il comportamento di scalabilità del QAT, specialmente a una precisione di 4 bit (W4A4), non è ben compreso. Le leggi di scalabilità esistenti per il QAT spesso ignorano fattori chiave come il numero di token di addestramento e la granularità della quantizzazione, limitandone l'applicabilità. Questo articolo propone una legge di scalabilità unificata per il QAT che modella l'errore di quantizzazione in funzione della dimensione del modello, del volume dei dati di addestramento e della dimensione del gruppo di quantizzazione. Attraverso 268 esperimenti di QAT, dimostriamo che l'errore di quantizzazione diminuisce all'aumentare della dimensione del modello, ma aumenta con più token di addestramento e una granularità di quantizzazione più grossolana. Per identificare le fonti dell'errore di quantizzazione W4A4, lo scomponiamo in componenti di peso e attivazione. Entrambe le componenti seguono la tendenza generale dell'errore di quantizzazione W4A4, ma con sensibilità diverse. In particolare, l'errore di quantizzazione del peso aumenta più rapidamente con più token di addestramento. Un'ulteriore analisi mostra che l'errore di quantizzazione delle attivazioni nello strato FC2, causato da valori anomali, è il principale collo di bottiglia dell'errore di quantizzazione QAT W4A4. Applicando una quantizzazione a precisione mista per affrontare questo collo di bottiglia, dimostriamo che gli errori di quantizzazione del peso e delle attivazioni possono convergere a livelli simili. Inoltre, con più dati di addestramento, l'errore di quantizzazione del peso supera alla fine l'errore di quantizzazione delle attivazioni, suggerendo che ridurre l'errore di quantizzazione del peso è altrettanto importante in tali scenari. Questi risultati offrono intuizioni chiave per migliorare la ricerca e lo sviluppo del QAT.
English
Large language models (LLMs) demand substantial computational and memory
resources, creating deployment challenges. Quantization-aware training (QAT)
addresses these challenges by reducing model precision while maintaining
performance. However, the scaling behavior of QAT, especially at 4-bit
precision (W4A4), is not well understood. Existing QAT scaling laws often
ignore key factors such as the number of training tokens and quantization
granularity, which limits their applicability. This paper proposes a unified
scaling law for QAT that models quantization error as a function of model size,
training data volume, and quantization group size. Through 268 QAT experiments,
we show that quantization error decreases as model size increases, but rises
with more training tokens and coarser quantization granularity. To identify the
sources of W4A4 quantization error, we decompose it into weight and activation
components. Both components follow the overall trend of W4A4 quantization
error, but with different sensitivities. Specifically, weight quantization
error increases more rapidly with more training tokens. Further analysis shows
that the activation quantization error in the FC2 layer, caused by outliers, is
the primary bottleneck of W4A4 QAT quantization error. By applying
mixed-precision quantization to address this bottleneck, we demonstrate that
weight and activation quantization errors can converge to similar levels.
Additionally, with more training data, weight quantization error eventually
exceeds activation quantization error, suggesting that reducing weight
quantization error is also important in such scenarios. These findings offer
key insights for improving QAT research and development.