Gevoelige gewichten identificeren via post-kwantiseringsintegralen
Identifying Sensitive Weights via Post-quantization Integral
February 28, 2025
Auteurs: Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen
cs.AI
Samenvatting
Het serveren van grote taalmmodellen (LLM's) is kostbaar. Post-training gewichtskwantisering kan dit probleem echter aanpakken door zowel hun grootte te comprimeren voor beperkt geheugen als bandbreedte te besparen voor versnelling. Omdat niet alle gewichtsdimensies even belangrijk zijn, vertrouwen deze methoden doorgaans op een gevoeligheidsmetriek, die de elementgewijze invloed van gewichten op de verliesfunctie aangeeft en wordt gebruikt om de oorspronkelijke gewichten voor te bereiden voor betere kwantisering. In dit werk voeren we een empirische studie uit naar de nauwkeurigheid van de gevoeligheidsmetriek, en we ontdekken dat bestaande op gradienten en Hessiaanse matrices gebaseerde metrieken zeer onnauwkeurig zijn: ze onderschatten de impact van kwantisering op de verliesfunctie met ordes van grootte, voornamelijk vanwege de kleine convergentiestraal van lokale 2e-orde benadering, d.w.z. de gradient- en Hessiaanse term in de formule van Taylor. Om dit probleem aan te pakken, stellen we Post-quantization Integral (PQI) voor, een nauwkeurige metriek om de posterior gevoeligheid op een fijnmazige manier te schatten. Om deze nauwkeurige metriek te benutten, stellen we verder ReQuant voor, een eenvoudig maar krachtig framework dat voornamelijk bestaat uit twee Dense-and-Sparse detach-componenten: zelf-adaptieve uitbijterselectie en stapsgewijze detach van significante gewichten. Resultaten tonen aan dat ReQuant state-of-the-art post-training kwantiseringsmethoden verbetert, met een opvallende verbetering van 2,66 perplexiteitswinst op Llama 3.2 1B met QTIP.
English
Serving Large Language Models (LLMs) is costly. However, post-training weight
quantization can address this problem by both compressing their sizes for
limited memory and saving bandwidth for acceleration. As not all weight
dimensions are equally important, those methods typically rely on a sensitivity
metric, which indicates the element-wise influence of weights on loss function
and is used to preprocess original weights for better quantization. In this
work, we conduct an empirical study on the accuracy of the sensitivity metric,
and find that existing gradient and Hessian based metrics are very inaccurate:
they underestimate quantization's impact on the loss function by orders of
magnitude, mainly due to the small convergence radius of local 2nd order
approximation, \ie, gradient and Hessian term in Taylor's formula. To tackle
this problem, we propose Post-quantization Integral (PQI), an accurate metric
to estimate posterior sensitivity in a fine-grained manner. To leverage this
accurate metric, we further propose ReQuant, a simple yet powerful framework
that mainly consists of two Dense-and-Sparse detach components: self-adaptive
outlier selection and step-wise significant weights detach. Results show that
ReQuant boosts state-of-the-art post-training quantization methods, with a
pronounced improvement of 2.66 perplexity gain on Llama 3.2 1B with QTIP.Summary
AI-Generated Summary