Redondeo Adaptativo que Preserva el Modelo
Model-Preserving Adaptive Rounding
May 29, 2025
Autores: Albert Tseng, Zhaofeng Sun, Christopher De Sa
cs.AI
Resumen
El objetivo principal de la cuantización post-entrenamiento (PTQ, por sus siglas en inglés) es producir un modelo comprimido cuya distribución de salida sea lo más cercana posible a la del modelo original. Para lograrlo de manera factible, casi todos los algoritmos de PTQ para modelos de lenguaje grandes (LLM) cuantizan las capas lineales minimizando de forma independiente el error de activación inmediato. Sin embargo, este objetivo localizado ignora el efecto de las capas subsiguientes, por lo que reducirlo no necesariamente resulta en un modelo más cercano. En este trabajo, presentamos Yet Another Quantization Algorithm (YAQA), un algoritmo de redondeo adaptativo que utiliza aproximaciones factorizadas de Kronecker del hessiano de cada capa lineal con respecto a la divergencia KL del modelo completo. YAQA consta de dos componentes: bosquejos factorizados de Kronecker del hessiano completo por capas que pueden calcularse de manera factible para LLM con cientos de miles de millones de parámetros, y un algoritmo de redondeo independiente del cuantizador que utiliza estos bosquejos y cuenta con garantías teóricas. En una amplia gama de modelos y cuantizadores, YAQA reduce empíricamente la divergencia KL con respecto al modelo original en aproximadamente un 30%, al mismo tiempo que logra un rendimiento de vanguardia en tareas posteriores.
English
The main goal of post-training quantization (PTQ) is to produced a compressed
model whose output distribution is as close to the original model's as
possible. To do this tractably, almost all LLM PTQ algorithms quantize linear
layers by independently minimizing the immediate activation error. However,
this localized objective ignores the effect of subsequent layers, so reducing
it does not necessarily give a closer model. In this work, we introduce Yet
Another Quantization Algorithm (YAQA), an adaptive rounding algorithm that uses
Kronecker-factored approximations of each linear layer's Hessian with respect
to the full model KL divergence. YAQA consists of two components:
Kronecker-factored sketches of the full layerwise Hessian that can be tractably
computed for hundred-billion parameter LLMs, and a quantizer-independent
rounding algorithm that uses these sketches and comes with theoretical
guarantees. Across a wide range of models and quantizers, YAQA empirically
reduces the KL divergence to the original model by approx 30% while
achieving state of the art performance on downstream tasks.