Arredondamento Adaptativo de Preservação de Modelo
Model-Preserving Adaptive Rounding
May 29, 2025
Autores: Albert Tseng, Zhaofeng Sun, Christopher De Sa
cs.AI
Resumo
O principal objetivo da quantização pós-treinamento (PTQ) é produzir um modelo comprimido cuja distribuição de saída seja o mais próxima possível da do modelo original. Para fazer isso de forma viável, quase todos os algoritmos de PTQ para LLMs quantizam as camadas lineares minimizando independentemente o erro de ativação imediata. No entanto, esse objetivo localizado ignora o efeito das camadas subsequentes, portanto, reduzi-lo não necessariamente resulta em um modelo mais próximo. Neste trabalho, apresentamos o Yet Another Quantization Algorithm (YAQA), um algoritmo de arredondamento adaptativo que utiliza aproximações fatoradas de Kronecker da Hessiana de cada camada linear em relação à divergência KL do modelo completo. O YAQA consiste em dois componentes: esboços fatorados de Kronecker da Hessiana completa por camada, que podem ser calculados de forma viável para LLMs com centenas de bilhões de parâmetros, e um algoritmo de arredondamento independente do quantizador que utiliza esses esboços e vem com garantias teóricas. Em uma ampla gama de modelos e quantizadores, o YAQA reduz empiricamente a divergência KL em relação ao modelo original em aproximadamente 30%, ao mesmo tempo que alcança desempenho de ponta em tarefas subsequentes.
English
The main goal of post-training quantization (PTQ) is to produced a compressed
model whose output distribution is as close to the original model's as
possible. To do this tractably, almost all LLM PTQ algorithms quantize linear
layers by independently minimizing the immediate activation error. However,
this localized objective ignores the effect of subsequent layers, so reducing
it does not necessarily give a closer model. In this work, we introduce Yet
Another Quantization Algorithm (YAQA), an adaptive rounding algorithm that uses
Kronecker-factored approximations of each linear layer's Hessian with respect
to the full model KL divergence. YAQA consists of two components:
Kronecker-factored sketches of the full layerwise Hessian that can be tractably
computed for hundred-billion parameter LLMs, and a quantizer-independent
rounding algorithm that uses these sketches and comes with theoretical
guarantees. Across a wide range of models and quantizers, YAQA empirically
reduces the KL divergence to the original model by approx 30% while
achieving state of the art performance on downstream tasks.