Identificación de Pesos Sensibles mediante Integral Post-cuantización
Identifying Sensitive Weights via Post-quantization Integral
February 28, 2025
Autores: Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen
cs.AI
Resumen
Servir modelos de lenguaje grandes (LLMs) es costoso. Sin embargo, la cuantización de pesos post-entrenamiento puede abordar este problema al comprimir su tamaño para memoria limitada y ahorrar ancho de banda para aceleración. Dado que no todas las dimensiones de los pesos son igualmente importantes, estos métodos suelen basarse en una métrica de sensibilidad, que indica la influencia elemento por elemento de los pesos en la función de pérdida y se utiliza para preprocesar los pesos originales para una mejor cuantización. En este trabajo, realizamos un estudio empírico sobre la precisión de la métrica de sensibilidad y encontramos que las métricas existentes basadas en gradiente y Hessiano son muy imprecisas: subestiman el impacto de la cuantización en la función de pérdida en órdenes de magnitud, principalmente debido al pequeño radio de convergencia de la aproximación local de segundo orden, es decir, el término de gradiente y Hessiano en la fórmula de Taylor. Para abordar este problema, proponemos la Integral Post-cuantización (PQI), una métrica precisa para estimar la sensibilidad posterior de manera detallada. Para aprovechar esta métrica precisa, proponemos además ReQuant, un marco simple pero potente que consta principalmente de dos componentes Denso-y-Escaso desacoplados: selección de valores atípicos auto-adaptativa y desacoplamiento paso a paso de pesos significativos. Los resultados muestran que ReQuant mejora los métodos de cuantización post-entrenamiento más avanzados, con una mejora notable de 2.66 en la ganancia de perplejidad en Llama 3.2 1B con QTIP.
English
Serving Large Language Models (LLMs) is costly. However, post-training weight
quantization can address this problem by both compressing their sizes for
limited memory and saving bandwidth for acceleration. As not all weight
dimensions are equally important, those methods typically rely on a sensitivity
metric, which indicates the element-wise influence of weights on loss function
and is used to preprocess original weights for better quantization. In this
work, we conduct an empirical study on the accuracy of the sensitivity metric,
and find that existing gradient and Hessian based metrics are very inaccurate:
they underestimate quantization's impact on the loss function by orders of
magnitude, mainly due to the small convergence radius of local 2nd order
approximation, \ie, gradient and Hessian term in Taylor's formula. To tackle
this problem, we propose Post-quantization Integral (PQI), an accurate metric
to estimate posterior sensitivity in a fine-grained manner. To leverage this
accurate metric, we further propose ReQuant, a simple yet powerful framework
that mainly consists of two Dense-and-Sparse detach components: self-adaptive
outlier selection and step-wise significant weights detach. Results show that
ReQuant boosts state-of-the-art post-training quantization methods, with a
pronounced improvement of 2.66 perplexity gain on Llama 3.2 1B with QTIP.Summary
AI-Generated Summary