QWHA: Квантование с учетом адаптации Уолша-Адамара для эффективной тонкой настройки параметров в крупных языковых моделях
QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models
September 22, 2025
Авторы: Hyesung Jeon, Seojune Lee, Beomseok Kang, Yulhwa Kim, Jae-Joon Kim
cs.AI
Аннотация
Спрос на эффективное развертывание крупных языковых моделей (LLM) стимулировал интерес к квантованию, которое снижает затраты на вывод, и параметрически-эффективной тонкой настройке (PEFT), которая уменьшает накладные расходы на обучение. Это послужило толчком к разработке PEFT с учетом квантования для создания точных, но эффективных квантованных моделей. В этом контексте снижение ошибки квантования перед тонкой настройкой имеет решающее значение для достижения высокой точности модели. Однако существующие методы, основанные на адаптации с низким рангом, страдают от ограниченной репрезентативной способности. Недавно предложенные адаптеры на основе преобразований, связанных с преобразованием Фурье (FT), обладают большей репрезентативной мощностью, чем адаптеры с низким рангом, но их прямое внедрение в квантованные модели часто приводит к неэффективному снижению ошибок и увеличению вычислительных затрат. Чтобы преодолеть эти ограничения, мы предлагаем QWHA — метод, который интегрирует адаптеры на основе FT в квантованные модели, используя преобразование Уолша-Адамара (WHT) в качестве ядра преобразования, а также новую схему инициализации адаптеров, включающую адаптивный выбор параметров и уточнение значений. Мы демонстрируем, что QWHA эффективно снижает ошибки квантования, облегчая тонкую настройку, а его конструкция существенно снижает вычислительные затраты. Экспериментальные результаты показывают, что QWHA стабильно превосходит базовые методы по точности при низкобитном квантовании и достигает значительного ускорения обучения по сравнению с существующими адаптерами на основе FT. Код доступен по адресу https://github.com/vantaa89/qwha.
English
The demand for efficient deployment of large language models (LLMs) has
driven interest in quantization, which reduces inference cost, and
parameter-efficient fine-tuning (PEFT), which lowers training overhead. This
motivated the development of quantization-aware PEFT to produce accurate yet
efficient quantized models. In this setting, reducing quantization error prior
to fine-tuning is crucial for achieving high model accuracy. However, existing
methods that rely on low-rank adaptation suffer from limited representational
capacity. Recent Fourier-related transform (FT)-based adapters offer greater
representational power than low-rank adapters, but their direct integration
into quantized models often results in ineffective error reduction and
increased computational overhead. To overcome these limitations, we propose
QWHA, a method that integrates FT-based adapters into quantized models by
employing the Walsh-Hadamard Transform (WHT) as the transform kernel, together
with a novel adapter initialization scheme incorporating adaptive parameter
selection and value refinement. We demonstrate that QWHA effectively mitigates
quantization errors while facilitating fine-tuning, and that its design
substantially reduces computational cost. Experimental results show that QWHA
consistently outperforms baselines in low-bit quantization accuracy and
achieves significant training speedups over existing FT-based adapters. The
code is available at https://github.com/vantaa89/qwha.