QWHA: Kwantisatiebewuste Walsh-Hadamard Aanpassing voor Parameter-efficiënte Fine-Tuning van Grote Taalmodellen

Samenvatting

De vraag naar efficiënte implementatie van grote taalmodellen (LLMs) heeft de interesse in kwantisatie aangewakkerd, wat de inferentiekosten verlaagt, en parameter-efficiënte fine-tuning (PEFT), wat de trainingsoverhead vermindert. Dit heeft de ontwikkeling van kwantisatiebewuste PEFT gestimuleerd om nauwkeurige maar toch efficiënte gekwantiseerde modellen te produceren. In deze context is het verminderen van kwantisatiefouten vóór fine-tuning cruciaal om een hoge modelnauwkeurigheid te bereiken. Bestaande methoden die vertrouwen op low-rank aanpassing hebben echter een beperkte representatiecapaciteit. Recente Fourier-gerelateerde transform (FT)-gebaseerde adapters bieden een grotere representatiekracht dan low-rank adapters, maar hun directe integratie in gekwantiseerde modellen resulteert vaak in ondoeltreffende foutreductie en verhoogde rekenkosten. Om deze beperkingen te overwinnen, stellen we QWHA voor, een methode die FT-gebaseerde adapters integreert in gekwantiseerde modellen door de Walsh-Hadamard Transform (WHT) te gebruiken als transformkernel, samen met een nieuw adapter-initialisatieschema dat adaptieve parameterselectie en waardeverfijning omvat. We tonen aan dat QWHA effectief kwantisatiefouten vermindert terwijl het fine-tuning vergemakkelijkt, en dat het ontwerp de rekenkosten aanzienlijk verlaagt. Experimentele resultaten laten zien dat QWHA consistent beter presteert dan baseline-methoden in nauwkeurigheid bij lage-bit kwantisatie en aanzienlijke trainingsversnellingen bereikt ten opzichte van bestaande FT-gebaseerde adapters. De code is beschikbaar op https://github.com/vantaa89/qwha.

English

The demand for efficient deployment of large language models (LLMs) has driven interest in quantization, which reduces inference cost, and parameter-efficient fine-tuning (PEFT), which lowers training overhead. This motivated the development of quantization-aware PEFT to produce accurate yet efficient quantized models. In this setting, reducing quantization error prior to fine-tuning is crucial for achieving high model accuracy. However, existing methods that rely on low-rank adaptation suffer from limited representational capacity. Recent Fourier-related transform (FT)-based adapters offer greater representational power than low-rank adapters, but their direct integration into quantized models often results in ineffective error reduction and increased computational overhead. To overcome these limitations, we propose QWHA, a method that integrates FT-based adapters into quantized models by employing the Walsh-Hadamard Transform (WHT) as the transform kernel, together with a novel adapter initialization scheme incorporating adaptive parameter selection and value refinement. We demonstrate that QWHA effectively mitigates quantization errors while facilitating fine-tuning, and that its design substantially reduces computational cost. Experimental results show that QWHA consistently outperforms baselines in low-bit quantization accuracy and achieves significant training speedups over existing FT-based adapters. The code is available at https://github.com/vantaa89/qwha.

QWHA: Kwantisatiebewuste Walsh-Hadamard Aanpassing voor Parameter-efficiënte Fine-Tuning van Grote Taalmodellen

QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models

Samenvatting

Support