Identifizierung sensibler Gewichte durch Post-Quantisierungs-Integral
Identifying Sensitive Weights via Post-quantization Integral
February 28, 2025
Autoren: Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen
cs.AI
Zusammenfassung
Das Bereitstellen von großen Sprachmodellen (LLMs) ist kostspielig. Allerdings kann die Post-Training-Gewichtsquantisierung dieses Problem lösen, indem sie sowohl die Größe der Modelle für begrenzten Speicherplatz komprimiert als auch Bandbreite für die Beschleunigung einspart. Da nicht alle Gewichtsdimensionen gleich wichtig sind, basieren diese Methoden typischerweise auf einem Sensitivitätsmetrik, der den elementweisen Einfluss der Gewichte auf die Verlustfunktion angibt und verwendet wird, um die ursprünglichen Gewichte für eine bessere Quantisierung vorzuverarbeiten. In dieser Arbeit führen wir eine empirische Studie zur Genauigkeit des Sensitivitätsmetriks durch und stellen fest, dass bestehende gradienten- und hessianbasierte Metriken sehr ungenau sind: Sie unterschätzen den Einfluss der Quantisierung auf die Verlustfunktion um Größenordnungen, hauptsächlich aufgrund des kleinen Konvergenzradius der lokalen 2. Ordnungs-Approximation, d.h. des Gradienten- und Hessian-Terms in der Taylor-Formel. Um dieses Problem zu lösen, schlagen wir das Post-Quantization-Integral (PQI) vor, ein genaues Metrik zur feinkörnigen Schätzung der posteriori Sensitivität. Um dieses genaue Metrik zu nutzen, schlagen wir weiterhin ReQuant vor, ein einfaches, aber leistungsstarkes Framework, das hauptsächlich aus zwei Dense-and-Sparse-Detach-Komponenten besteht: selbstadaptive Ausreißerauswahl und schrittweise Detachierung signifikanter Gewichte. Die Ergebnisse zeigen, dass ReQuant state-of-the-art Post-Training-Quantisierungsmethoden verbessert, mit einer deutlichen Verbesserung von 2,66 Perplexity-Gewinn auf Llama 3.2 1B mit QTIP.
English
Serving Large Language Models (LLMs) is costly. However, post-training weight
quantization can address this problem by both compressing their sizes for
limited memory and saving bandwidth for acceleration. As not all weight
dimensions are equally important, those methods typically rely on a sensitivity
metric, which indicates the element-wise influence of weights on loss function
and is used to preprocess original weights for better quantization. In this
work, we conduct an empirical study on the accuracy of the sensitivity metric,
and find that existing gradient and Hessian based metrics are very inaccurate:
they underestimate quantization's impact on the loss function by orders of
magnitude, mainly due to the small convergence radius of local 2nd order
approximation, \ie, gradient and Hessian term in Taylor's formula. To tackle
this problem, we propose Post-quantization Integral (PQI), an accurate metric
to estimate posterior sensitivity in a fine-grained manner. To leverage this
accurate metric, we further propose ReQuant, a simple yet powerful framework
that mainly consists of two Dense-and-Sparse detach components: self-adaptive
outlier selection and step-wise significant weights detach. Results show that
ReQuant boosts state-of-the-art post-training quantization methods, with a
pronounced improvement of 2.66 perplexity gain on Llama 3.2 1B with QTIP.Summary
AI-Generated Summary