Model-Behoudende Adaptieve Afronding
Model-Preserving Adaptive Rounding
May 29, 2025
Auteurs: Albert Tseng, Zhaofeng Sun, Christopher De Sa
cs.AI
Samenvatting
Het hoofddoel van post-training kwantisatie (PTQ) is om een gecomprimeerd model te produceren waarvan de uitvoerdistributie zo dicht mogelijk bij die van het originele model ligt. Om dit op een uitvoerbare manier te doen, kwantiseren bijna alle LLM PTQ-algoritmen lineaire lagen door onafhankelijk de directe activatiefout te minimaliseren. Dit gelokaliseerde doel negeert echter het effect van daaropvolgende lagen, waardoor het verminderen ervan niet noodzakelijkerwijs een nauwkeuriger model oplevert. In dit werk introduceren we Yet Another Quantization Algorithm (YAQA), een adaptief afrondingsalgoritme dat Kronecker-gefactoriseerde benaderingen gebruikt van de Hessiaan van elke lineaire laag met betrekking tot de volledige model KL-divergentie. YAQA bestaat uit twee componenten: Kronecker-gefactoriseerde schetsen van de volledige laaggewijze Hessiaan die uitvoerbaar kunnen worden berekend voor LLM's met honderden miljarden parameters, en een kwantiseerder-onafhankelijk afrondingsalgoritme dat deze schetsen gebruikt en voorzien is van theoretische garanties. Over een breed scala aan modellen en kwantiseerders reduceert YAQA empirisch de KL-divergentie naar het originele model met ongeveer 30%, terwijl het state-of-the-art prestaties behaalt op downstream taken.
English
The main goal of post-training quantization (PTQ) is to produced a compressed
model whose output distribution is as close to the original model's as
possible. To do this tractably, almost all LLM PTQ algorithms quantize linear
layers by independently minimizing the immediate activation error. However,
this localized objective ignores the effect of subsequent layers, so reducing
it does not necessarily give a closer model. In this work, we introduce Yet
Another Quantization Algorithm (YAQA), an adaptive rounding algorithm that uses
Kronecker-factored approximations of each linear layer's Hessian with respect
to the full model KL divergence. YAQA consists of two components:
Kronecker-factored sketches of the full layerwise Hessian that can be tractably
computed for hundred-billion parameter LLMs, and a quantizer-independent
rounding algorithm that uses these sketches and comes with theoretical
guarantees. Across a wide range of models and quantizers, YAQA empirically
reduces the KL divergence to the original model by approx 30% while
achieving state of the art performance on downstream tasks.