Identificação de Pesos Sensíveis via Integral Pós-quantização
Identifying Sensitive Weights via Post-quantization Integral
February 28, 2025
Autores: Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen
cs.AI
Resumo
Servir grandes modelos de linguagem (LLMs) é custoso. No entanto, a quantização pós-treinamento dos pesos pode resolver esse problema, tanto comprimindo seus tamanhos para memória limitada quanto economizando largura de banda para aceleração. Como nem todas as dimensões dos pesos são igualmente importantes, esses métodos geralmente dependem de uma métrica de sensibilidade, que indica a influência elemento a elemento dos pesos na função de perda e é usada para pré-processar os pesos originais para uma melhor quantização. Neste trabalho, realizamos um estudo empírico sobre a precisão da métrica de sensibilidade e descobrimos que as métricas existentes baseadas em gradiente e Hessiana são muito imprecisas: elas subestimam o impacto da quantização na função de perda em ordens de magnitude, principalmente devido ao pequeno raio de convergência da aproximação local de segunda ordem, ou seja, os termos de gradiente e Hessiana na fórmula de Taylor. Para resolver esse problema, propomos o Post-quantization Integral (PQI), uma métrica precisa para estimar a sensibilidade posterior de maneira refinada. Para aproveitar essa métrica precisa, propomos ainda o ReQuant, uma estrutura simples, mas poderosa, que consiste principalmente em dois componentes Dense-and-Sparse detach: seleção de outliers auto-adaptativa e detach passo a passo de pesos significativos. Os resultados mostram que o ReQuant impulsiona os métodos de quantização pós-treinamento de última geração, com uma melhoria acentuada de 2,66 no ganho de perplexidade no Llama 3.2 1B com QTIP.
English
Serving Large Language Models (LLMs) is costly. However, post-training weight
quantization can address this problem by both compressing their sizes for
limited memory and saving bandwidth for acceleration. As not all weight
dimensions are equally important, those methods typically rely on a sensitivity
metric, which indicates the element-wise influence of weights on loss function
and is used to preprocess original weights for better quantization. In this
work, we conduct an empirical study on the accuracy of the sensitivity metric,
and find that existing gradient and Hessian based metrics are very inaccurate:
they underestimate quantization's impact on the loss function by orders of
magnitude, mainly due to the small convergence radius of local 2nd order
approximation, \ie, gradient and Hessian term in Taylor's formula. To tackle
this problem, we propose Post-quantization Integral (PQI), an accurate metric
to estimate posterior sensitivity in a fine-grained manner. To leverage this
accurate metric, we further propose ReQuant, a simple yet powerful framework
that mainly consists of two Dense-and-Sparse detach components: self-adaptive
outlier selection and step-wise significant weights detach. Results show that
ReQuant boosts state-of-the-art post-training quantization methods, with a
pronounced improvement of 2.66 perplexity gain on Llama 3.2 1B with QTIP.Summary
AI-Generated Summary