Закон масштабирования для обучения с учетом квантования
Scaling Law for Quantization-Aware Training
May 20, 2025
Авторы: Mengzhao Chen, Chaoyi Zhang, Jing Liu, Yutao Zeng, Zeyue Xue, Zhiheng Liu, Yunshui Li, Jin Ma, Jie Huang, Xun Zhou, Ping Luo
cs.AI
Аннотация
Крупные языковые модели (LLM) требуют значительных вычислительных и оперативных ресурсов, что создает сложности при их развертывании. Обучение с учетом квантования (QAT) решает эти проблемы за счет снижения точности модели при сохранении производительности. Однако масштабируемость QAT, особенно при 4-битной точности (W4A4), изучена недостаточно. Существующие законы масштабирования QAT часто игнорируют ключевые факторы, такие как количество обучающих токенов и гранулярность квантования, что ограничивает их применимость. В данной статье предлагается унифицированный закон масштабирования для QAT, который моделирует ошибку квантования как функцию размера модели, объема обучающих данных и размера группы квантования. На основе 268 экспериментов с QAT мы показываем, что ошибка квантования уменьшается с увеличением размера модели, но возрастает при большем количестве обучающих токенов и более грубой гранулярности квантования. Чтобы определить источники ошибки квантования W4A4, мы разлагаем ее на компоненты весов и активаций. Оба компонента следуют общей тенденции ошибки квантования W4A4, но с разной чувствительностью. В частности, ошибка квантования весов увеличивается быстрее при большем количестве обучающих токенов. Дополнительный анализ показывает, что ошибка квантования активаций в слое FC2, вызванная выбросами, является основным узким местом ошибки квантования W4A4 QAT. Применяя смешанную точность квантования для устранения этого узкого места, мы демонстрируем, что ошибки квантования весов и активаций могут сходиться к схожим уровням. Кроме того, при увеличении объема обучающих данных ошибка квантования весов в конечном итоге превышает ошибку квантования активаций, что указывает на важность снижения ошибки квантования весов в таких сценариях. Эти результаты предоставляют ключевые инсайты для улучшения исследований и разработок в области QAT.
English
Large language models (LLMs) demand substantial computational and memory
resources, creating deployment challenges. Quantization-aware training (QAT)
addresses these challenges by reducing model precision while maintaining
performance. However, the scaling behavior of QAT, especially at 4-bit
precision (W4A4), is not well understood. Existing QAT scaling laws often
ignore key factors such as the number of training tokens and quantization
granularity, which limits their applicability. This paper proposes a unified
scaling law for QAT that models quantization error as a function of model size,
training data volume, and quantization group size. Through 268 QAT experiments,
we show that quantization error decreases as model size increases, but rises
with more training tokens and coarser quantization granularity. To identify the
sources of W4A4 quantization error, we decompose it into weight and activation
components. Both components follow the overall trend of W4A4 quantization
error, but with different sensitivities. Specifically, weight quantization
error increases more rapidly with more training tokens. Further analysis shows
that the activation quantization error in the FC2 layer, caused by outliers, is
the primary bottleneck of W4A4 QAT quantization error. By applying
mixed-precision quantization to address this bottleneck, we demonstrate that
weight and activation quantization errors can converge to similar levels.
Additionally, with more training data, weight quantization error eventually
exceeds activation quantization error, suggesting that reducing weight
quantization error is also important in such scenarios. These findings offer
key insights for improving QAT research and development.Summary
AI-Generated Summary