Modell-erhaltende adaptive Rundung
Model-Preserving Adaptive Rounding
May 29, 2025
Autoren: Albert Tseng, Zhaofeng Sun, Christopher De Sa
cs.AI
Zusammenfassung
Das Hauptziel der Post-Training-Quantisierung (PTQ) ist es, ein komprimiertes Modell zu erzeugen, dessen Ausgabeverteilung möglichst nahe an der des ursprünglichen Modells liegt. Um dies praktikabel zu erreichen, quantisieren fast alle LLM-PTQ-Algorithmen lineare Schichten, indem sie den unmittelbaren Aktivierungsfehler unabhängig minimieren. Dieses lokalisierte Ziel ignoriert jedoch den Einfluss nachfolgender Schichten, sodass dessen Reduzierung nicht zwangsläufig ein näherliegendes Modell liefert. In dieser Arbeit stellen wir Yet Another Quantization Algorithm (YAQA) vor, einen adaptiven Rundungsalgorithmus, der Kronecker-faktorisierte Approximationen der Hessian-Matrix jeder linearen Schicht in Bezug auf die vollständige KL-Divergenz des Modells verwendet. YAQA besteht aus zwei Komponenten: Kronecker-faktorisierten Skizzen der vollständigen schichtweisen Hessian-Matrix, die für LLMs mit hunderten Milliarden Parametern praktikabel berechnet werden können, und einem quantisierungsunabhängigen Rundungsalgorithmus, der diese Skizzen nutzt und mit theoretischen Garantien ausgestattet ist. Über eine breite Palette von Modellen und Quantisierern hinweg reduziert YAQA empirisch die KL-Divergenz zum ursprünglichen Modell um etwa 30 % und erreicht gleichzeitig Spitzenleistungen bei nachgelagerten Aufgaben.
English
The main goal of post-training quantization (PTQ) is to produced a compressed
model whose output distribution is as close to the original model's as
possible. To do this tractably, almost all LLM PTQ algorithms quantize linear
layers by independently minimizing the immediate activation error. However,
this localized objective ignores the effect of subsequent layers, so reducing
it does not necessarily give a closer model. In this work, we introduce Yet
Another Quantization Algorithm (YAQA), an adaptive rounding algorithm that uses
Kronecker-factored approximations of each linear layer's Hessian with respect
to the full model KL divergence. YAQA consists of two components:
Kronecker-factored sketches of the full layerwise Hessian that can be tractably
computed for hundred-billion parameter LLMs, and a quantizer-independent
rounding algorithm that uses these sketches and comes with theoretical
guarantees. Across a wide range of models and quantizers, YAQA empirically
reduces the KL divergence to the original model by approx 30% while
achieving state of the art performance on downstream tasks.