QWHA: Adaptación Cuantización-Consciente de Walsh-Hadamard para el Ajuste Fino Eficiente en Parámetros de Modelos de Lenguaje a Gran Escala
QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models
September 22, 2025
Autores: Hyesung Jeon, Seojune Lee, Beomseok Kang, Yulhwa Kim, Jae-Joon Kim
cs.AI
Resumen
La demanda de implementación eficiente de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha impulsado el interés en la cuantización, que reduce el costo de inferencia, y en el ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés), que disminuye la sobrecarga del entrenamiento. Esto ha motivado el desarrollo de PEFT consciente de la cuantización para producir modelos cuantizados precisos y eficientes. En este contexto, reducir el error de cuantización antes del ajuste fino es crucial para lograr una alta precisión del modelo. Sin embargo, los métodos existentes que dependen de la adaptación de bajo rango sufren de una capacidad de representación limitada. Los adaptadores basados en transformadas relacionadas con Fourier (FT, por sus siglas en inglés) ofrecen un mayor poder de representación que los adaptadores de bajo rango, pero su integración directa en modelos cuantizados a menudo resulta en una reducción ineficaz del error y un aumento de la sobrecarga computacional. Para superar estas limitaciones, proponemos QWHA, un método que integra adaptadores basados en FT en modelos cuantizados empleando la Transformada de Walsh-Hadamard (WHT, por sus siglas en inglés) como núcleo de transformación, junto con un novedoso esquema de inicialización de adaptadores que incorpora selección adaptativa de parámetros y refinamiento de valores. Demostramos que QWHA mitiga eficazmente los errores de cuantización mientras facilita el ajuste fino, y que su diseño reduce sustancialmente el costo computacional. Los resultados experimentales muestran que QWHA supera consistentemente a los métodos de referencia en precisión de cuantización de bajo bit y logra aceleraciones significativas en el entrenamiento en comparación con los adaptadores basados en FT existentes. El código está disponible en https://github.com/vantaa89/qwha.
English
The demand for efficient deployment of large language models (LLMs) has
driven interest in quantization, which reduces inference cost, and
parameter-efficient fine-tuning (PEFT), which lowers training overhead. This
motivated the development of quantization-aware PEFT to produce accurate yet
efficient quantized models. In this setting, reducing quantization error prior
to fine-tuning is crucial for achieving high model accuracy. However, existing
methods that rely on low-rank adaptation suffer from limited representational
capacity. Recent Fourier-related transform (FT)-based adapters offer greater
representational power than low-rank adapters, but their direct integration
into quantized models often results in ineffective error reduction and
increased computational overhead. To overcome these limitations, we propose
QWHA, a method that integrates FT-based adapters into quantized models by
employing the Walsh-Hadamard Transform (WHT) as the transform kernel, together
with a novel adapter initialization scheme incorporating adaptive parameter
selection and value refinement. We demonstrate that QWHA effectively mitigates
quantization errors while facilitating fine-tuning, and that its design
substantially reduces computational cost. Experimental results show that QWHA
consistently outperforms baselines in low-bit quantization accuracy and
achieves significant training speedups over existing FT-based adapters. The
code is available at https://github.com/vantaa89/qwha.