Lei de Escalabilidade para Treinamento com Consciência de Quantização

Resumo

Modelos de linguagem de grande escala (LLMs) exigem recursos computacionais e de memória substanciais, criando desafios de implantação. O treinamento com consciência de quantização (QAT) aborda esses desafios ao reduzir a precisão do modelo enquanto mantém o desempenho. No entanto, o comportamento de escalonamento do QAT, especialmente em precisão de 4 bits (W4A4), não é bem compreendido. As leis de escalonamento de QAT existentes frequentemente ignoram fatores-chave, como o número de tokens de treinamento e a granularidade da quantização, o que limita sua aplicabilidade. Este artigo propõe uma lei de escalonamento unificada para QAT que modela o erro de quantização como uma função do tamanho do modelo, volume de dados de treinamento e tamanho do grupo de quantização. Através de 268 experimentos de QAT, mostramos que o erro de quantização diminui à medida que o tamanho do modelo aumenta, mas aumenta com mais tokens de treinamento e granularidade de quantização mais grossa. Para identificar as fontes do erro de quantização W4A4, decompomos esse erro em componentes de peso e ativação. Ambos os componentes seguem a tendência geral do erro de quantização W4A4, mas com sensibilidades diferentes. Especificamente, o erro de quantização de peso aumenta mais rapidamente com mais tokens de treinamento. Uma análise mais aprofundada mostra que o erro de quantização de ativação na camada FC2, causado por valores atípicos, é o principal gargalo do erro de quantização QAT W4A4. Ao aplicar quantização de precisão mista para abordar esse gargalo, demonstramos que os erros de quantização de peso e ativação podem convergir para níveis semelhantes. Além disso, com mais dados de treinamento, o erro de quantização de peso eventualmente excede o erro de quantização de ativação, sugerindo que a redução do erro de quantização de peso também é importante nesses cenários. Essas descobertas oferecem insights importantes para melhorar a pesquisa e o desenvolvimento de QAT.

English

Large language models (LLMs) demand substantial computational and memory resources, creating deployment challenges. Quantization-aware training (QAT) addresses these challenges by reducing model precision while maintaining performance. However, the scaling behavior of QAT, especially at 4-bit precision (W4A4), is not well understood. Existing QAT scaling laws often ignore key factors such as the number of training tokens and quantization granularity, which limits their applicability. This paper proposes a unified scaling law for QAT that models quantization error as a function of model size, training data volume, and quantization group size. Through 268 QAT experiments, we show that quantization error decreases as model size increases, but rises with more training tokens and coarser quantization granularity. To identify the sources of W4A4 quantization error, we decompose it into weight and activation components. Both components follow the overall trend of W4A4 quantization error, but with different sensitivities. Specifically, weight quantization error increases more rapidly with more training tokens. Further analysis shows that the activation quantization error in the FC2 layer, caused by outliers, is the primary bottleneck of W4A4 QAT quantization error. By applying mixed-precision quantization to address this bottleneck, we demonstrate that weight and activation quantization errors can converge to similar levels. Additionally, with more training data, weight quantization error eventually exceeds activation quantization error, suggesting that reducing weight quantization error is also important in such scenarios. These findings offer key insights for improving QAT research and development.

Lei de Escalabilidade para Treinamento com Consciência de Quantização

Scaling Law for Quantization-Aware Training

Resumo

Support