Arredondamento Adaptativo de Preservação de Modelo

Resumo

O principal objetivo da quantização pós-treinamento (PTQ) é produzir um modelo comprimido cuja distribuição de saída seja o mais próxima possível da do modelo original. Para fazer isso de forma viável, quase todos os algoritmos de PTQ para LLMs quantizam as camadas lineares minimizando independentemente o erro de ativação imediata. No entanto, esse objetivo localizado ignora o efeito das camadas subsequentes, portanto, reduzi-lo não necessariamente resulta em um modelo mais próximo. Neste trabalho, apresentamos o Yet Another Quantization Algorithm (YAQA), um algoritmo de arredondamento adaptativo que utiliza aproximações fatoradas de Kronecker da Hessiana de cada camada linear em relação à divergência KL do modelo completo. O YAQA consiste em dois componentes: esboços fatorados de Kronecker da Hessiana completa por camada, que podem ser calculados de forma viável para LLMs com centenas de bilhões de parâmetros, e um algoritmo de arredondamento independente do quantizador que utiliza esses esboços e vem com garantias teóricas. Em uma ampla gama de modelos e quantizadores, o YAQA reduz empiricamente a divergência KL em relação ao modelo original em aproximadamente 30%, ao mesmo tempo que alcança desempenho de ponta em tarefas subsequentes.

English

The main goal of post-training quantization (PTQ) is to produced a compressed model whose output distribution is as close to the original model's as possible. To do this tractably, almost all LLM PTQ algorithms quantize linear layers by independently minimizing the immediate activation error. However, this localized objective ignores the effect of subsequent layers, so reducing it does not necessarily give a closer model. In this work, we introduce Yet Another Quantization Algorithm (YAQA), an adaptive rounding algorithm that uses Kronecker-factored approximations of each linear layer's Hessian with respect to the full model KL divergence. YAQA consists of two components: Kronecker-factored sketches of the full layerwise Hessian that can be tractably computed for hundred-billion parameter LLMs, and a quantizer-independent rounding algorithm that uses these sketches and comes with theoretical guarantees. Across a wide range of models and quantizers, YAQA empirically reduces the KL divergence to the original model by approx 30% while achieving state of the art performance on downstream tasks.

Arredondamento Adaptativo de Preservação de Modelo

Model-Preserving Adaptive Rounding

Resumo

Support