QWHA: Adaptación Cuantización-Consciente de Walsh-Hadamard para el Ajuste Fino Eficiente en Parámetros de Modelos de Lenguaje a Gran Escala

Resumen

La demanda de implementación eficiente de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha impulsado el interés en la cuantización, que reduce el costo de inferencia, y en el ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés), que disminuye la sobrecarga del entrenamiento. Esto ha motivado el desarrollo de PEFT consciente de la cuantización para producir modelos cuantizados precisos y eficientes. En este contexto, reducir el error de cuantización antes del ajuste fino es crucial para lograr una alta precisión del modelo. Sin embargo, los métodos existentes que dependen de la adaptación de bajo rango sufren de una capacidad de representación limitada. Los adaptadores basados en transformadas relacionadas con Fourier (FT, por sus siglas en inglés) ofrecen un mayor poder de representación que los adaptadores de bajo rango, pero su integración directa en modelos cuantizados a menudo resulta en una reducción ineficaz del error y un aumento de la sobrecarga computacional. Para superar estas limitaciones, proponemos QWHA, un método que integra adaptadores basados en FT en modelos cuantizados empleando la Transformada de Walsh-Hadamard (WHT, por sus siglas en inglés) como núcleo de transformación, junto con un novedoso esquema de inicialización de adaptadores que incorpora selección adaptativa de parámetros y refinamiento de valores. Demostramos que QWHA mitiga eficazmente los errores de cuantización mientras facilita el ajuste fino, y que su diseño reduce sustancialmente el costo computacional. Los resultados experimentales muestran que QWHA supera consistentemente a los métodos de referencia en precisión de cuantización de bajo bit y logra aceleraciones significativas en el entrenamiento en comparación con los adaptadores basados en FT existentes. El código está disponible en https://github.com/vantaa89/qwha.

English

The demand for efficient deployment of large language models (LLMs) has driven interest in quantization, which reduces inference cost, and parameter-efficient fine-tuning (PEFT), which lowers training overhead. This motivated the development of quantization-aware PEFT to produce accurate yet efficient quantized models. In this setting, reducing quantization error prior to fine-tuning is crucial for achieving high model accuracy. However, existing methods that rely on low-rank adaptation suffer from limited representational capacity. Recent Fourier-related transform (FT)-based adapters offer greater representational power than low-rank adapters, but their direct integration into quantized models often results in ineffective error reduction and increased computational overhead. To overcome these limitations, we propose QWHA, a method that integrates FT-based adapters into quantized models by employing the Walsh-Hadamard Transform (WHT) as the transform kernel, together with a novel adapter initialization scheme incorporating adaptive parameter selection and value refinement. We demonstrate that QWHA effectively mitigates quantization errors while facilitating fine-tuning, and that its design substantially reduces computational cost. Experimental results show that QWHA consistently outperforms baselines in low-bit quantization accuracy and achieves significant training speedups over existing FT-based adapters. The code is available at https://github.com/vantaa89/qwha.

QWHA: Adaptación Cuantización-Consciente de Walsh-Hadamard para el Ajuste Fino Eficiente en Parámetros de Modelos de Lenguaje a Gran Escala

QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models

Resumen

Support