ChatPaper.aiChatPaper

Identificación de Pesos Sensibles mediante Integral Post-cuantización

Identifying Sensitive Weights via Post-quantization Integral

February 28, 2025
Autores: Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen
cs.AI

Resumen

Servir modelos de lenguaje grandes (LLMs) es costoso. Sin embargo, la cuantización de pesos post-entrenamiento puede abordar este problema al comprimir su tamaño para memoria limitada y ahorrar ancho de banda para aceleración. Dado que no todas las dimensiones de los pesos son igualmente importantes, estos métodos suelen basarse en una métrica de sensibilidad, que indica la influencia elemento por elemento de los pesos en la función de pérdida y se utiliza para preprocesar los pesos originales para una mejor cuantización. En este trabajo, realizamos un estudio empírico sobre la precisión de la métrica de sensibilidad y encontramos que las métricas existentes basadas en gradiente y Hessiano son muy imprecisas: subestiman el impacto de la cuantización en la función de pérdida en órdenes de magnitud, principalmente debido al pequeño radio de convergencia de la aproximación local de segundo orden, es decir, el término de gradiente y Hessiano en la fórmula de Taylor. Para abordar este problema, proponemos la Integral Post-cuantización (PQI), una métrica precisa para estimar la sensibilidad posterior de manera detallada. Para aprovechar esta métrica precisa, proponemos además ReQuant, un marco simple pero potente que consta principalmente de dos componentes Denso-y-Escaso desacoplados: selección de valores atípicos auto-adaptativa y desacoplamiento paso a paso de pesos significativos. Los resultados muestran que ReQuant mejora los métodos de cuantización post-entrenamiento más avanzados, con una mejora notable de 2.66 en la ganancia de perplejidad en Llama 3.2 1B con QTIP.
English
Serving Large Language Models (LLMs) is costly. However, post-training weight quantization can address this problem by both compressing their sizes for limited memory and saving bandwidth for acceleration. As not all weight dimensions are equally important, those methods typically rely on a sensitivity metric, which indicates the element-wise influence of weights on loss function and is used to preprocess original weights for better quantization. In this work, we conduct an empirical study on the accuracy of the sensitivity metric, and find that existing gradient and Hessian based metrics are very inaccurate: they underestimate quantization's impact on the loss function by orders of magnitude, mainly due to the small convergence radius of local 2nd order approximation, \ie, gradient and Hessian term in Taylor's formula. To tackle this problem, we propose Post-quantization Integral (PQI), an accurate metric to estimate posterior sensitivity in a fine-grained manner. To leverage this accurate metric, we further propose ReQuant, a simple yet powerful framework that mainly consists of two Dense-and-Sparse detach components: self-adaptive outlier selection and step-wise significant weights detach. Results show that ReQuant boosts state-of-the-art post-training quantization methods, with a pronounced improvement of 2.66 perplexity gain on Llama 3.2 1B with QTIP.

Summary

AI-Generated Summary

PDF72March 7, 2025