QWHA: Adattamento Quantization-Aware Walsh-Hadamard per il Fine-Tuning Efficiente dei Parametri su Modelli Linguistici di Grandi Dimensioni
QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models
September 22, 2025
Autori: Hyesung Jeon, Seojune Lee, Beomseok Kang, Yulhwa Kim, Jae-Joon Kim
cs.AI
Abstract
La richiesta di un'implementazione efficiente di modelli linguistici di grandi dimensioni (LLM) ha stimolato l'interesse verso la quantizzazione, che riduce i costi di inferenza, e il fine-tuning efficiente in termini di parametri (PEFT), che abbassa l'overhead di addestramento. Ciò ha motivato lo sviluppo di PEFT consapevole della quantizzazione per produrre modelli quantizzati accurati ed efficienti. In questo contesto, ridurre l'errore di quantizzazione prima del fine-tuning è cruciale per ottenere un'elevata accuratezza del modello. Tuttavia, i metodi esistenti che si basano sull'adattamento a basso rango soffrono di una capacità rappresentativa limitata. Gli adattatori basati su trasformate di Fourier (FT) recenti offrono una maggiore potenza rappresentativa rispetto agli adattatori a basso rango, ma la loro integrazione diretta nei modelli quantizzati spesso risulta in una riduzione inefficace degli errori e in un aumento dell'overhead computazionale. Per superare queste limitazioni, proponiamo QWHA, un metodo che integra adattatori basati su FT nei modelli quantizzati utilizzando la Trasformata di Walsh-Hadamard (WHT) come nucleo di trasformazione, insieme a un nuovo schema di inizializzazione degli adattatori che incorpora la selezione adattativa dei parametri e il perfezionamento dei valori. Dimostriamo che QWHA mitiga efficacemente gli errori di quantizzazione facilitando il fine-tuning e che il suo design riduce sostanzialmente il costo computazionale. I risultati sperimentali mostrano che QWHA supera costantemente i metodi di riferimento in termini di accuratezza nella quantizzazione a basso numero di bit e ottiene significativi miglioramenti nella velocità di addestramento rispetto agli adattatori basati su FT esistenti. Il codice è disponibile all'indirizzo https://github.com/vantaa89/qwha.
English
The demand for efficient deployment of large language models (LLMs) has
driven interest in quantization, which reduces inference cost, and
parameter-efficient fine-tuning (PEFT), which lowers training overhead. This
motivated the development of quantization-aware PEFT to produce accurate yet
efficient quantized models. In this setting, reducing quantization error prior
to fine-tuning is crucial for achieving high model accuracy. However, existing
methods that rely on low-rank adaptation suffer from limited representational
capacity. Recent Fourier-related transform (FT)-based adapters offer greater
representational power than low-rank adapters, but their direct integration
into quantized models often results in ineffective error reduction and
increased computational overhead. To overcome these limitations, we propose
QWHA, a method that integrates FT-based adapters into quantized models by
employing the Walsh-Hadamard Transform (WHT) as the transform kernel, together
with a novel adapter initialization scheme incorporating adaptive parameter
selection and value refinement. We demonstrate that QWHA effectively mitigates
quantization errors while facilitating fine-tuning, and that its design
substantially reduces computational cost. Experimental results show that QWHA
consistently outperforms baselines in low-bit quantization accuracy and
achieves significant training speedups over existing FT-based adapters. The
code is available at https://github.com/vantaa89/qwha.