Arrotondamento Adattivo che Preserva il Modello
Model-Preserving Adaptive Rounding
May 29, 2025
Autori: Albert Tseng, Zhaofeng Sun, Christopher De Sa
cs.AI
Abstract
L'obiettivo principale della quantizzazione post-addestramento (PTQ) è produrre un modello compresso la cui distribuzione di output sia il più vicina possibile a quella del modello originale. Per rendere questo processo trattabile, quasi tutti gli algoritmi PTQ per LLM quantizzano i livelli lineari minimizzando in modo indipendente l'errore di attivazione immediato. Tuttavia, questo obiettivo localizzato ignora l'effetto dei livelli successivi, quindi ridurlo non garantisce necessariamente un modello più vicino. In questo lavoro, introduciamo Yet Another Quantization Algorithm (YAQA), un algoritmo di arrotondamento adattivo che utilizza approssimazioni fattorizzate di Kronecker dell'Hessiano di ciascun livello lineare rispetto alla divergenza KL del modello completo. YAQA è composto da due componenti: schizzi fattorizzati di Kronecker dell'Hessiano completo a livello di strato che possono essere calcolati in modo trattabile per LLM con centinaia di miliardi di parametri, e un algoritmo di arrotondamento indipendente dal quantizzatore che utilizza questi schizzi e offre garanzie teoriche. Su un'ampia gamma di modelli e quantizzatori, YAQA riduce empiricamente la divergenza KL rispetto al modello originale di circa il 30%, raggiungendo prestazioni all'avanguardia nei task downstream.
English
The main goal of post-training quantization (PTQ) is to produced a compressed
model whose output distribution is as close to the original model's as
possible. To do this tractably, almost all LLM PTQ algorithms quantize linear
layers by independently minimizing the immediate activation error. However,
this localized objective ignores the effect of subsequent layers, so reducing
it does not necessarily give a closer model. In this work, we introduce Yet
Another Quantization Algorithm (YAQA), an adaptive rounding algorithm that uses
Kronecker-factored approximations of each linear layer's Hessian with respect
to the full model KL divergence. YAQA consists of two components:
Kronecker-factored sketches of the full layerwise Hessian that can be tractably
computed for hundred-billion parameter LLMs, and a quantizer-independent
rounding algorithm that uses these sketches and comes with theoretical
guarantees. Across a wide range of models and quantizers, YAQA empirically
reduces the KL divergence to the original model by approx 30% while
achieving state of the art performance on downstream tasks.