Адаптивное округление с сохранением модели

Аннотация

Основная цель посттренировочного квантования (PTQ) заключается в создании сжатой модели, распределение выходных данных которой максимально близко к распределению исходной модели. Для достижения этой цели практически все алгоритмы PTQ для крупных языковых моделей (LLM) квантуют линейные слои, независимо минимизируя ошибку активации на текущем слое. Однако этот локальный критерий игнорирует влияние последующих слоев, поэтому его уменьшение не обязательно приводит к более близкой модели. В данной работе мы представляем алгоритм YAQA (Yet Another Quantization Algorithm) — адаптивный алгоритм округления, который использует факторизованные по Кронекеру аппроксимации гессиана каждого линейного слоя относительно полной дивергенции Кульбака-Лейблера (KL) модели. YAQA состоит из двух компонентов: факторизованных по Кронекеру аппроксимаций полного гессиана на уровне слоев, которые могут быть эффективно вычислены для LLM с сотнями миллиардов параметров, и алгоритма округления, независимого от квантователя, который использует эти аппроксимации и сопровождается теоретическими гарантиями. На широком спектре моделей и квантователей YAQA эмпирически уменьшает дивергенцию KL до исходной модели примерно на 30%, одновременно достигая наилучших результатов на последующих задачах.

English

The main goal of post-training quantization (PTQ) is to produced a compressed model whose output distribution is as close to the original model's as possible. To do this tractably, almost all LLM PTQ algorithms quantize linear layers by independently minimizing the immediate activation error. However, this localized objective ignores the effect of subsequent layers, so reducing it does not necessarily give a closer model. In this work, we introduce Yet Another Quantization Algorithm (YAQA), an adaptive rounding algorithm that uses Kronecker-factored approximations of each linear layer's Hessian with respect to the full model KL divergence. YAQA consists of two components: Kronecker-factored sketches of the full layerwise Hessian that can be tractably computed for hundred-billion parameter LLMs, and a quantizer-independent rounding algorithm that uses these sketches and comes with theoretical guarantees. Across a wide range of models and quantizers, YAQA empirically reduces the KL divergence to the original model by approx 30% while achieving state of the art performance on downstream tasks.

Адаптивное округление с сохранением модели

Model-Preserving Adaptive Rounding

Аннотация

Support