Адаптивное округление с сохранением модели
Model-Preserving Adaptive Rounding
May 29, 2025
Авторы: Albert Tseng, Zhaofeng Sun, Christopher De Sa
cs.AI
Аннотация
Основная цель посттренировочного квантования (PTQ) заключается в создании сжатой модели, распределение выходных данных которой максимально близко к распределению исходной модели. Для достижения этой цели практически все алгоритмы PTQ для крупных языковых моделей (LLM) квантуют линейные слои, независимо минимизируя ошибку активации на текущем слое. Однако этот локальный критерий игнорирует влияние последующих слоев, поэтому его уменьшение не обязательно приводит к более близкой модели. В данной работе мы представляем алгоритм YAQA (Yet Another Quantization Algorithm) — адаптивный алгоритм округления, который использует факторизованные по Кронекеру аппроксимации гессиана каждого линейного слоя относительно полной дивергенции Кульбака-Лейблера (KL) модели. YAQA состоит из двух компонентов: факторизованных по Кронекеру аппроксимаций полного гессиана на уровне слоев, которые могут быть эффективно вычислены для LLM с сотнями миллиардов параметров, и алгоритма округления, независимого от квантователя, который использует эти аппроксимации и сопровождается теоретическими гарантиями. На широком спектре моделей и квантователей YAQA эмпирически уменьшает дивергенцию KL до исходной модели примерно на 30%, одновременно достигая наилучших результатов на последующих задачах.
English
The main goal of post-training quantization (PTQ) is to produced a compressed
model whose output distribution is as close to the original model's as
possible. To do this tractably, almost all LLM PTQ algorithms quantize linear
layers by independently minimizing the immediate activation error. However,
this localized objective ignores the effect of subsequent layers, so reducing
it does not necessarily give a closer model. In this work, we introduce Yet
Another Quantization Algorithm (YAQA), an adaptive rounding algorithm that uses
Kronecker-factored approximations of each linear layer's Hessian with respect
to the full model KL divergence. YAQA consists of two components:
Kronecker-factored sketches of the full layerwise Hessian that can be tractably
computed for hundred-billion parameter LLMs, and a quantizer-independent
rounding algorithm that uses these sketches and comes with theoretical
guarantees. Across a wide range of models and quantizers, YAQA empirically
reduces the KL divergence to the original model by approx 30% while
achieving state of the art performance on downstream tasks.