Lei de Escalabilidade para Treinamento com Consciência de Quantização
Scaling Law for Quantization-Aware Training
May 20, 2025
Autores: Mengzhao Chen, Chaoyi Zhang, Jing Liu, Yutao Zeng, Zeyue Xue, Zhiheng Liu, Yunshui Li, Jin Ma, Jie Huang, Xun Zhou, Ping Luo
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) exigem recursos computacionais e de memória substanciais, criando desafios de implantação. O treinamento com consciência de quantização (QAT) aborda esses desafios ao reduzir a precisão do modelo enquanto mantém o desempenho. No entanto, o comportamento de escalonamento do QAT, especialmente em precisão de 4 bits (W4A4), não é bem compreendido. As leis de escalonamento de QAT existentes frequentemente ignoram fatores-chave, como o número de tokens de treinamento e a granularidade da quantização, o que limita sua aplicabilidade. Este artigo propõe uma lei de escalonamento unificada para QAT que modela o erro de quantização como uma função do tamanho do modelo, volume de dados de treinamento e tamanho do grupo de quantização. Através de 268 experimentos de QAT, mostramos que o erro de quantização diminui à medida que o tamanho do modelo aumenta, mas aumenta com mais tokens de treinamento e granularidade de quantização mais grossa. Para identificar as fontes do erro de quantização W4A4, decompomos esse erro em componentes de peso e ativação. Ambos os componentes seguem a tendência geral do erro de quantização W4A4, mas com sensibilidades diferentes. Especificamente, o erro de quantização de peso aumenta mais rapidamente com mais tokens de treinamento. Uma análise mais aprofundada mostra que o erro de quantização de ativação na camada FC2, causado por valores atípicos, é o principal gargalo do erro de quantização QAT W4A4. Ao aplicar quantização de precisão mista para abordar esse gargalo, demonstramos que os erros de quantização de peso e ativação podem convergir para níveis semelhantes. Além disso, com mais dados de treinamento, o erro de quantização de peso eventualmente excede o erro de quantização de ativação, sugerindo que a redução do erro de quantização de peso também é importante nesses cenários. Essas descobertas oferecem insights importantes para melhorar a pesquisa e o desenvolvimento de QAT.
English
Large language models (LLMs) demand substantial computational and memory
resources, creating deployment challenges. Quantization-aware training (QAT)
addresses these challenges by reducing model precision while maintaining
performance. However, the scaling behavior of QAT, especially at 4-bit
precision (W4A4), is not well understood. Existing QAT scaling laws often
ignore key factors such as the number of training tokens and quantization
granularity, which limits their applicability. This paper proposes a unified
scaling law for QAT that models quantization error as a function of model size,
training data volume, and quantization group size. Through 268 QAT experiments,
we show that quantization error decreases as model size increases, but rises
with more training tokens and coarser quantization granularity. To identify the
sources of W4A4 quantization error, we decompose it into weight and activation
components. Both components follow the overall trend of W4A4 quantization
error, but with different sensitivities. Specifically, weight quantization
error increases more rapidly with more training tokens. Further analysis shows
that the activation quantization error in the FC2 layer, caused by outliers, is
the primary bottleneck of W4A4 QAT quantization error. By applying
mixed-precision quantization to address this bottleneck, we demonstrate that
weight and activation quantization errors can converge to similar levels.
Additionally, with more training data, weight quantization error eventually
exceeds activation quantization error, suggesting that reducing weight
quantization error is also important in such scenarios. These findings offer
key insights for improving QAT research and development.