QWHA: Kwantisatiebewuste Walsh-Hadamard Aanpassing voor Parameter-efficiënte Fine-Tuning van Grote Taalmodellen
QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models
September 22, 2025
Auteurs: Hyesung Jeon, Seojune Lee, Beomseok Kang, Yulhwa Kim, Jae-Joon Kim
cs.AI
Samenvatting
De vraag naar efficiënte implementatie van grote taalmodellen (LLMs) heeft de interesse in kwantisatie aangewakkerd, wat de inferentiekosten verlaagt, en parameter-efficiënte fine-tuning (PEFT), wat de trainingsoverhead vermindert. Dit heeft de ontwikkeling van kwantisatiebewuste PEFT gestimuleerd om nauwkeurige maar toch efficiënte gekwantiseerde modellen te produceren. In deze context is het verminderen van kwantisatiefouten vóór fine-tuning cruciaal om een hoge modelnauwkeurigheid te bereiken. Bestaande methoden die vertrouwen op low-rank aanpassing hebben echter een beperkte representatiecapaciteit. Recente Fourier-gerelateerde transform (FT)-gebaseerde adapters bieden een grotere representatiekracht dan low-rank adapters, maar hun directe integratie in gekwantiseerde modellen resulteert vaak in ondoeltreffende foutreductie en verhoogde rekenkosten. Om deze beperkingen te overwinnen, stellen we QWHA voor, een methode die FT-gebaseerde adapters integreert in gekwantiseerde modellen door de Walsh-Hadamard Transform (WHT) te gebruiken als transformkernel, samen met een nieuw adapter-initialisatieschema dat adaptieve parameterselectie en waardeverfijning omvat. We tonen aan dat QWHA effectief kwantisatiefouten vermindert terwijl het fine-tuning vergemakkelijkt, en dat het ontwerp de rekenkosten aanzienlijk verlaagt. Experimentele resultaten laten zien dat QWHA consistent beter presteert dan baseline-methoden in nauwkeurigheid bij lage-bit kwantisatie en aanzienlijke trainingsversnellingen bereikt ten opzichte van bestaande FT-gebaseerde adapters. De code is beschikbaar op https://github.com/vantaa89/qwha.
English
The demand for efficient deployment of large language models (LLMs) has
driven interest in quantization, which reduces inference cost, and
parameter-efficient fine-tuning (PEFT), which lowers training overhead. This
motivated the development of quantization-aware PEFT to produce accurate yet
efficient quantized models. In this setting, reducing quantization error prior
to fine-tuning is crucial for achieving high model accuracy. However, existing
methods that rely on low-rank adaptation suffer from limited representational
capacity. Recent Fourier-related transform (FT)-based adapters offer greater
representational power than low-rank adapters, but their direct integration
into quantized models often results in ineffective error reduction and
increased computational overhead. To overcome these limitations, we propose
QWHA, a method that integrates FT-based adapters into quantized models by
employing the Walsh-Hadamard Transform (WHT) as the transform kernel, together
with a novel adapter initialization scheme incorporating adaptive parameter
selection and value refinement. We demonstrate that QWHA effectively mitigates
quantization errors while facilitating fine-tuning, and that its design
substantially reduces computational cost. Experimental results show that QWHA
consistently outperforms baselines in low-bit quantization accuracy and
achieves significant training speedups over existing FT-based adapters. The
code is available at https://github.com/vantaa89/qwha.