Identificazione dei Pesi Sensibili tramite Integrale Post-quantizzazione
Identifying Sensitive Weights via Post-quantization Integral
February 28, 2025
Autori: Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen
cs.AI
Abstract
Il servizio di grandi modelli linguistici (LLM) è costoso. Tuttavia, la quantizzazione dei pesi post-addestramento può affrontare questo problema comprimendo le loro dimensioni per una memoria limitata e risparmiando larghezza di banda per l'accelerazione. Poiché non tutte le dimensioni dei pesi sono ugualmente importanti, questi metodi si basano tipicamente su una metrica di sensibilità, che indica l'influenza elemento per elemento dei pesi sulla funzione di perdita e viene utilizzata per preprocessare i pesi originali per una migliore quantizzazione. In questo lavoro, conduciamo uno studio empirico sull'accuratezza della metrica di sensibilità e scopriamo che le metriche esistenti basate su gradiente e Hessiana sono molto imprecise: sottostimano l'impatto della quantizzazione sulla funzione di perdita di ordini di grandezza, principalmente a causa del piccolo raggio di convergenza dell'approssimazione locale del secondo ordine, \ie, il termine del gradiente e dell'Hessiana nella formula di Taylor. Per affrontare questo problema, proponiamo Post-quantization Integral (PQI), una metrica accurata per stimare la sensibilità posteriore in modo fine. Per sfruttare questa metrica accurata, proponiamo ulteriormente ReQuant, un framework semplice ma potente che consiste principalmente di due componenti Dense-and-Sparse detach: selezione autonoma di outlier e distacco graduale dei pesi significativi. I risultati mostrano che ReQuant migliora i metodi di quantizzazione post-addestramento all'avanguardia, con un miglioramento pronunciato di 2.66 punti di perplessità su Llama 3.2 1B con QTIP.
English
Serving Large Language Models (LLMs) is costly. However, post-training weight
quantization can address this problem by both compressing their sizes for
limited memory and saving bandwidth for acceleration. As not all weight
dimensions are equally important, those methods typically rely on a sensitivity
metric, which indicates the element-wise influence of weights on loss function
and is used to preprocess original weights for better quantization. In this
work, we conduct an empirical study on the accuracy of the sensitivity metric,
and find that existing gradient and Hessian based metrics are very inaccurate:
they underestimate quantization's impact on the loss function by orders of
magnitude, mainly due to the small convergence radius of local 2nd order
approximation, \ie, gradient and Hessian term in Taylor's formula. To tackle
this problem, we propose Post-quantization Integral (PQI), an accurate metric
to estimate posterior sensitivity in a fine-grained manner. To leverage this
accurate metric, we further propose ReQuant, a simple yet powerful framework
that mainly consists of two Dense-and-Sparse detach components: self-adaptive
outlier selection and step-wise significant weights detach. Results show that
ReQuant boosts state-of-the-art post-training quantization methods, with a
pronounced improvement of 2.66 perplexity gain on Llama 3.2 1B with QTIP.Summary
AI-Generated Summary