QWHA : Adaptation Quantification-Aware de Walsh-Hadamard pour le Réglage Fin Paramétriquement Efficace des Modèles de Langage à Grande Échelle
QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models
September 22, 2025
papers.authors: Hyesung Jeon, Seojune Lee, Beomseok Kang, Yulhwa Kim, Jae-Joon Kim
cs.AI
papers.abstract
La demande pour un déploiement efficace des grands modèles de langage (LLMs) a suscité un intérêt croissant pour la quantification, qui réduit les coûts d'inférence, et pour le réglage fin efficace en paramètres (PEFT), qui diminue la surcharge d'entraînement. Cela a motivé le développement de méthodes de PEFT conscientes de la quantification afin de produire des modèles quantifiés à la fois précis et efficaces. Dans ce contexte, la réduction de l'erreur de quantification avant le réglage fin est cruciale pour atteindre une haute précision du modèle. Cependant, les méthodes existantes qui reposent sur l'adaptation à faible rang souffrent d'une capacité de représentation limitée. Les adaptateurs récents basés sur des transformations liées à la transformée de Fourier (FT) offrent une puissance de représentation supérieure à celle des adaptateurs à faible rang, mais leur intégration directe dans des modèles quantifiés entraîne souvent une réduction inefficace des erreurs et une augmentation de la surcharge computationnelle. Pour surmonter ces limitations, nous proposons QWHA, une méthode qui intègre des adaptateurs basés sur la FT dans des modèles quantifiés en utilisant la transformée de Walsh-Hadamard (WHT) comme noyau de transformation, accompagnée d'un nouveau schéma d'initialisation des adaptateurs incorporant une sélection adaptative des paramètres et un affinement des valeurs. Nous démontrons que QWHA atténue efficacement les erreurs de quantification tout en facilitant le réglage fin, et que sa conception réduit considérablement le coût computationnel. Les résultats expérimentaux montrent que QWHA surpasse systématiquement les méthodes de référence en termes de précision dans la quantification à faible bit et permet des accélérations significatives de l'entraînement par rapport aux adaptateurs basés sur la FT existants. Le code est disponible à l'adresse suivante : https://github.com/vantaa89/qwha.
English
The demand for efficient deployment of large language models (LLMs) has
driven interest in quantization, which reduces inference cost, and
parameter-efficient fine-tuning (PEFT), which lowers training overhead. This
motivated the development of quantization-aware PEFT to produce accurate yet
efficient quantized models. In this setting, reducing quantization error prior
to fine-tuning is crucial for achieving high model accuracy. However, existing
methods that rely on low-rank adaptation suffer from limited representational
capacity. Recent Fourier-related transform (FT)-based adapters offer greater
representational power than low-rank adapters, but their direct integration
into quantized models often results in ineffective error reduction and
increased computational overhead. To overcome these limitations, we propose
QWHA, a method that integrates FT-based adapters into quantized models by
employing the Walsh-Hadamard Transform (WHT) as the transform kernel, together
with a novel adapter initialization scheme incorporating adaptive parameter
selection and value refinement. We demonstrate that QWHA effectively mitigates
quantization errors while facilitating fine-tuning, and that its design
substantially reduces computational cost. Experimental results show that QWHA
consistently outperforms baselines in low-bit quantization accuracy and
achieves significant training speedups over existing FT-based adapters. The
code is available at https://github.com/vantaa89/qwha.