Arrondi adaptatif préservant le modèle
Model-Preserving Adaptive Rounding
May 29, 2025
Auteurs: Albert Tseng, Zhaofeng Sun, Christopher De Sa
cs.AI
Résumé
L'objectif principal de la quantification post-entraînement (PTQ) est de produire un modèle compressé dont la distribution de sortie soit aussi proche que possible de celle du modèle original. Pour y parvenir de manière réalisable, presque tous les algorithmes de PTQ pour modèles de langage (LLM) quantifient les couches linéaires en minimisant indépendamment l'erreur d'activation immédiate. Cependant, cet objectif localisé ignore l'effet des couches suivantes, donc sa réduction ne garantit pas nécessairement un modèle plus proche. Dans ce travail, nous introduisons Yet Another Quantization Algorithm (YAQA), un algorithme d'arrondi adaptatif qui utilise des approximations factorisées de Kronecker de la hessienne de chaque couche linéaire par rapport à la divergence KL du modèle complet. YAQA se compose de deux éléments : des esquisses factorisées de Kronecker de la hessienne complète par couche, qui peuvent être calculées de manière réalisable pour des LLM de centaines de milliards de paramètres, et un algorithme d'arrondi indépendant du quantificateur qui utilise ces esquisses et est accompagné de garanties théoriques. Sur une large gamme de modèles et de quantificateurs, YAQA réduit empiriquement la divergence KL par rapport au modèle original d'environ 30 %, tout en atteignant des performances de pointe sur les tâches en aval.
English
The main goal of post-training quantization (PTQ) is to produced a compressed
model whose output distribution is as close to the original model's as
possible. To do this tractably, almost all LLM PTQ algorithms quantize linear
layers by independently minimizing the immediate activation error. However,
this localized objective ignores the effect of subsequent layers, so reducing
it does not necessarily give a closer model. In this work, we introduce Yet
Another Quantization Algorithm (YAQA), an adaptive rounding algorithm that uses
Kronecker-factored approximations of each linear layer's Hessian with respect
to the full model KL divergence. YAQA consists of two components:
Kronecker-factored sketches of the full layerwise Hessian that can be tractably
computed for hundred-billion parameter LLMs, and a quantizer-independent
rounding algorithm that uses these sketches and comes with theoretical
guarantees. Across a wide range of models and quantizers, YAQA empirically
reduces the KL divergence to the original model by approx 30% while
achieving state of the art performance on downstream tasks.