ChatPaper.aiChatPaper

QWHA: Adattamento Quantization-Aware Walsh-Hadamard per il Fine-Tuning Efficiente dei Parametri su Modelli Linguistici di Grandi Dimensioni

QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models

September 22, 2025
Autori: Hyesung Jeon, Seojune Lee, Beomseok Kang, Yulhwa Kim, Jae-Joon Kim
cs.AI

Abstract

La richiesta di un'implementazione efficiente di modelli linguistici di grandi dimensioni (LLM) ha stimolato l'interesse verso la quantizzazione, che riduce i costi di inferenza, e il fine-tuning efficiente in termini di parametri (PEFT), che abbassa l'overhead di addestramento. Ciò ha motivato lo sviluppo di PEFT consapevole della quantizzazione per produrre modelli quantizzati accurati ed efficienti. In questo contesto, ridurre l'errore di quantizzazione prima del fine-tuning è cruciale per ottenere un'elevata accuratezza del modello. Tuttavia, i metodi esistenti che si basano sull'adattamento a basso rango soffrono di una capacità rappresentativa limitata. Gli adattatori basati su trasformate di Fourier (FT) recenti offrono una maggiore potenza rappresentativa rispetto agli adattatori a basso rango, ma la loro integrazione diretta nei modelli quantizzati spesso risulta in una riduzione inefficace degli errori e in un aumento dell'overhead computazionale. Per superare queste limitazioni, proponiamo QWHA, un metodo che integra adattatori basati su FT nei modelli quantizzati utilizzando la Trasformata di Walsh-Hadamard (WHT) come nucleo di trasformazione, insieme a un nuovo schema di inizializzazione degli adattatori che incorpora la selezione adattativa dei parametri e il perfezionamento dei valori. Dimostriamo che QWHA mitiga efficacemente gli errori di quantizzazione facilitando il fine-tuning e che il suo design riduce sostanzialmente il costo computazionale. I risultati sperimentali mostrano che QWHA supera costantemente i metodi di riferimento in termini di accuratezza nella quantizzazione a basso numero di bit e ottiene significativi miglioramenti nella velocità di addestramento rispetto agli adattatori basati su FT esistenti. Il codice è disponibile all'indirizzo https://github.com/vantaa89/qwha.
English
The demand for efficient deployment of large language models (LLMs) has driven interest in quantization, which reduces inference cost, and parameter-efficient fine-tuning (PEFT), which lowers training overhead. This motivated the development of quantization-aware PEFT to produce accurate yet efficient quantized models. In this setting, reducing quantization error prior to fine-tuning is crucial for achieving high model accuracy. However, existing methods that rely on low-rank adaptation suffer from limited representational capacity. Recent Fourier-related transform (FT)-based adapters offer greater representational power than low-rank adapters, but their direct integration into quantized models often results in ineffective error reduction and increased computational overhead. To overcome these limitations, we propose QWHA, a method that integrates FT-based adapters into quantized models by employing the Walsh-Hadamard Transform (WHT) as the transform kernel, together with a novel adapter initialization scheme incorporating adaptive parameter selection and value refinement. We demonstrate that QWHA effectively mitigates quantization errors while facilitating fine-tuning, and that its design substantially reduces computational cost. Experimental results show that QWHA consistently outperforms baselines in low-bit quantization accuracy and achieves significant training speedups over existing FT-based adapters. The code is available at https://github.com/vantaa89/qwha.
PDF92September 23, 2025