QWHA: Adaptação Quantização-Consciente de Walsh-Hadamard para Ajuste Fino Eficiente em Parâmetros em Modelos de Linguagem de Grande Escala
QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models
September 22, 2025
Autores: Hyesung Jeon, Seojune Lee, Beomseok Kang, Yulhwa Kim, Jae-Joon Kim
cs.AI
Resumo
A demanda por uma implantação eficiente de modelos de linguagem de grande escala (LLMs) tem impulsionado o interesse em quantização, que reduz o custo de inferência, e em ajuste fino com eficiência de parâmetros (PEFT), que diminui a sobrecarga de treinamento. Isso motivou o desenvolvimento de PEFT com consciência de quantização para produzir modelos quantizados precisos e eficientes. Nesse contexto, reduzir o erro de quantização antes do ajuste fino é crucial para alcançar alta precisão do modelo. No entanto, os métodos existentes que dependem de adaptação de baixo posto sofrem com capacidade representacional limitada. Adaptadores recentes baseados em transformadas relacionadas à Fourier (FT) oferecem maior poder representacional do que adaptadores de baixo posto, mas sua integração direta em modelos quantizados frequentemente resulta em redução ineficaz de erros e aumento da sobrecarga computacional. Para superar essas limitações, propomos o QWHA, um método que integra adaptadores baseados em FT em modelos quantizados empregando a Transformada de Walsh-Hadamard (WHT) como núcleo de transformação, juntamente com um novo esquema de inicialização de adaptadores que incorpora seleção adaptativa de parâmetros e refinamento de valores. Demonstramos que o QWHA mitiga efetivamente os erros de quantização enquanto facilita o ajuste fino, e que seu projeto reduz substancialmente o custo computacional. Resultados experimentais mostram que o QWHA supera consistentemente as linhas de base em precisão de quantização de baixo bit e alcança acelerações significativas no treinamento em comparação com adaptadores baseados em FT existentes. O código está disponível em https://github.com/vantaa89/qwha.
English
The demand for efficient deployment of large language models (LLMs) has
driven interest in quantization, which reduces inference cost, and
parameter-efficient fine-tuning (PEFT), which lowers training overhead. This
motivated the development of quantization-aware PEFT to produce accurate yet
efficient quantized models. In this setting, reducing quantization error prior
to fine-tuning is crucial for achieving high model accuracy. However, existing
methods that rely on low-rank adaptation suffer from limited representational
capacity. Recent Fourier-related transform (FT)-based adapters offer greater
representational power than low-rank adapters, but their direct integration
into quantized models often results in ineffective error reduction and
increased computational overhead. To overcome these limitations, we propose
QWHA, a method that integrates FT-based adapters into quantized models by
employing the Walsh-Hadamard Transform (WHT) as the transform kernel, together
with a novel adapter initialization scheme incorporating adaptive parameter
selection and value refinement. We demonstrate that QWHA effectively mitigates
quantization errors while facilitating fine-tuning, and that its design
substantially reduces computational cost. Experimental results show that QWHA
consistently outperforms baselines in low-bit quantization accuracy and
achieves significant training speedups over existing FT-based adapters. The
code is available at https://github.com/vantaa89/qwha.