ChatPaper.aiChatPaper

Identificação de Pesos Sensíveis via Integral Pós-quantização

Identifying Sensitive Weights via Post-quantization Integral

February 28, 2025
Autores: Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen
cs.AI

Resumo

Servir grandes modelos de linguagem (LLMs) é custoso. No entanto, a quantização pós-treinamento dos pesos pode resolver esse problema, tanto comprimindo seus tamanhos para memória limitada quanto economizando largura de banda para aceleração. Como nem todas as dimensões dos pesos são igualmente importantes, esses métodos geralmente dependem de uma métrica de sensibilidade, que indica a influência elemento a elemento dos pesos na função de perda e é usada para pré-processar os pesos originais para uma melhor quantização. Neste trabalho, realizamos um estudo empírico sobre a precisão da métrica de sensibilidade e descobrimos que as métricas existentes baseadas em gradiente e Hessiana são muito imprecisas: elas subestimam o impacto da quantização na função de perda em ordens de magnitude, principalmente devido ao pequeno raio de convergência da aproximação local de segunda ordem, ou seja, os termos de gradiente e Hessiana na fórmula de Taylor. Para resolver esse problema, propomos o Post-quantization Integral (PQI), uma métrica precisa para estimar a sensibilidade posterior de maneira refinada. Para aproveitar essa métrica precisa, propomos ainda o ReQuant, uma estrutura simples, mas poderosa, que consiste principalmente em dois componentes Dense-and-Sparse detach: seleção de outliers auto-adaptativa e detach passo a passo de pesos significativos. Os resultados mostram que o ReQuant impulsiona os métodos de quantização pós-treinamento de última geração, com uma melhoria acentuada de 2,66 no ganho de perplexidade no Llama 3.2 1B com QTIP.
English
Serving Large Language Models (LLMs) is costly. However, post-training weight quantization can address this problem by both compressing their sizes for limited memory and saving bandwidth for acceleration. As not all weight dimensions are equally important, those methods typically rely on a sensitivity metric, which indicates the element-wise influence of weights on loss function and is used to preprocess original weights for better quantization. In this work, we conduct an empirical study on the accuracy of the sensitivity metric, and find that existing gradient and Hessian based metrics are very inaccurate: they underestimate quantization's impact on the loss function by orders of magnitude, mainly due to the small convergence radius of local 2nd order approximation, \ie, gradient and Hessian term in Taylor's formula. To tackle this problem, we propose Post-quantization Integral (PQI), an accurate metric to estimate posterior sensitivity in a fine-grained manner. To leverage this accurate metric, we further propose ReQuant, a simple yet powerful framework that mainly consists of two Dense-and-Sparse detach components: self-adaptive outlier selection and step-wise significant weights detach. Results show that ReQuant boosts state-of-the-art post-training quantization methods, with a pronounced improvement of 2.66 perplexity gain on Llama 3.2 1B with QTIP.

Summary

AI-Generated Summary

PDF72March 7, 2025