QWHA: Quantisierungsbewusste Walsh-Hadamard-Adaptation für parameter-effizientes Feinabstimmen großer Sprachmodelle
QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models
September 22, 2025
papers.authors: Hyesung Jeon, Seojune Lee, Beomseok Kang, Yulhwa Kim, Jae-Joon Kim
cs.AI
papers.abstract
Die Nachfrage nach effizientem Einsatz großer Sprachmodelle (LLMs) hat das Interesse an Quantisierung, welche die Inferenzkosten reduziert, und parameter-effizientem Feinabgleich (PEFT), der den Trainingsaufwand verringert, geweckt. Dies hat die Entwicklung von Quantisierungs-bewusstem PEFT motiviert, um präzise und dennoch effiziente quantisierte Modelle zu erzeugen. In diesem Kontext ist die Reduzierung von Quantisierungsfehlern vor dem Feinabgleich entscheidend, um eine hohe Modellgenauigkeit zu erreichen. Allerdings leiden bestehende Methoden, die auf Low-Rank-Adaption basieren, unter einer begrenzten Repräsentationskapazität. Neuere Fourier-bezogene Transform (FT)-basierte Adapter bieten eine größere Repräsentationskraft als Low-Rank-Adapter, aber ihre direkte Integration in quantisierte Modelle führt oft zu ineffektiver Fehlerreduktion und erhöhtem Rechenaufwand. Um diese Einschränkungen zu überwinden, schlagen wir QWHA vor, eine Methode, die FT-basierte Adapter in quantisierte Modelle integriert, indem die Walsh-Hadamard-Transformation (WHT) als Transformationskern verwendet wird, zusammen mit einem neuartigen Adapter-Initialisierungsschema, das adaptive Parameterauswahl und Wertverfeinerung beinhaltet. Wir zeigen, dass QWHA Quantisierungsfehler effektiv mindert und gleichzeitig den Feinabgleich erleichtert, und dass sein Design den Rechenaufwand erheblich reduziert. Experimentelle Ergebnisse zeigen, dass QWHA in der Genauigkeit bei niedrigbitiger Quantisierung durchweg die Vergleichsmethoden übertrifft und signifikante Trainingsbeschleunigungen gegenüber bestehenden FT-basierten Adaptern erreicht. Der Code ist verfügbar unter https://github.com/vantaa89/qwha.
English
The demand for efficient deployment of large language models (LLMs) has
driven interest in quantization, which reduces inference cost, and
parameter-efficient fine-tuning (PEFT), which lowers training overhead. This
motivated the development of quantization-aware PEFT to produce accurate yet
efficient quantized models. In this setting, reducing quantization error prior
to fine-tuning is crucial for achieving high model accuracy. However, existing
methods that rely on low-rank adaptation suffer from limited representational
capacity. Recent Fourier-related transform (FT)-based adapters offer greater
representational power than low-rank adapters, but their direct integration
into quantized models often results in ineffective error reduction and
increased computational overhead. To overcome these limitations, we propose
QWHA, a method that integrates FT-based adapters into quantized models by
employing the Walsh-Hadamard Transform (WHT) as the transform kernel, together
with a novel adapter initialization scheme incorporating adaptive parameter
selection and value refinement. We demonstrate that QWHA effectively mitigates
quantization errors while facilitating fine-tuning, and that its design
substantially reduces computational cost. Experimental results show that QWHA
consistently outperforms baselines in low-bit quantization accuracy and
achieves significant training speedups over existing FT-based adapters. The
code is available at https://github.com/vantaa89/qwha.