ChatPaper.aiChatPaper

Identification des poids sensibles via l'intégrale post-quantification

Identifying Sensitive Weights via Post-quantization Integral

February 28, 2025
Auteurs: Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen
cs.AI

Résumé

Le déploiement de grands modèles de langage (LLMs) est coûteux. Cependant, la quantification des poids après entraînement peut résoudre ce problème en compressant leur taille pour une mémoire limitée et en économisant la bande passante pour l'accélération. Comme toutes les dimensions des poids ne sont pas également importantes, ces méthodes reposent généralement sur une métrique de sensibilité, qui indique l'influence élément par élément des poids sur la fonction de perte et est utilisée pour prétraiter les poids originaux en vue d'une meilleure quantification. Dans ce travail, nous menons une étude empirique sur la précision de la métrique de sensibilité, et constatons que les métriques existantes basées sur le gradient et la hessienne sont très imprécises : elles sous-estiment l'impact de la quantification sur la fonction de perte de plusieurs ordres de grandeur, principalement en raison du petit rayon de convergence de l'approximation locale du second ordre, c'est-à-dire les termes de gradient et de hessienne dans la formule de Taylor. Pour résoudre ce problème, nous proposons l'Intégrale Post-quantification (PQI), une métrique précise pour estimer la sensibilité postérieure de manière fine. Pour tirer parti de cette métrique précise, nous proposons en outre ReQuant, un cadre simple mais puissant qui se compose principalement de deux composants Dense-et-Sparse détachés : la sélection auto-adaptative des valeurs aberrantes et le détachement progressif des poids significatifs. Les résultats montrent que ReQuant améliore les méthodes de quantification post-entraînement de pointe, avec une amélioration notable de 2,66 points de perplexité sur Llama 3.2 1B avec QTIP.
English
Serving Large Language Models (LLMs) is costly. However, post-training weight quantization can address this problem by both compressing their sizes for limited memory and saving bandwidth for acceleration. As not all weight dimensions are equally important, those methods typically rely on a sensitivity metric, which indicates the element-wise influence of weights on loss function and is used to preprocess original weights for better quantization. In this work, we conduct an empirical study on the accuracy of the sensitivity metric, and find that existing gradient and Hessian based metrics are very inaccurate: they underestimate quantization's impact on the loss function by orders of magnitude, mainly due to the small convergence radius of local 2nd order approximation, \ie, gradient and Hessian term in Taylor's formula. To tackle this problem, we propose Post-quantization Integral (PQI), an accurate metric to estimate posterior sensitivity in a fine-grained manner. To leverage this accurate metric, we further propose ReQuant, a simple yet powerful framework that mainly consists of two Dense-and-Sparse detach components: self-adaptive outlier selection and step-wise significant weights detach. Results show that ReQuant boosts state-of-the-art post-training quantization methods, with a pronounced improvement of 2.66 perplexity gain on Llama 3.2 1B with QTIP.

Summary

AI-Generated Summary

PDF72March 7, 2025