QWHA: Квантование с учетом адаптации Уолша-Адамара для эффективной тонкой настройки параметров в крупных языковых моделях

Аннотация

Спрос на эффективное развертывание крупных языковых моделей (LLM) стимулировал интерес к квантованию, которое снижает затраты на вывод, и параметрически-эффективной тонкой настройке (PEFT), которая уменьшает накладные расходы на обучение. Это послужило толчком к разработке PEFT с учетом квантования для создания точных, но эффективных квантованных моделей. В этом контексте снижение ошибки квантования перед тонкой настройкой имеет решающее значение для достижения высокой точности модели. Однако существующие методы, основанные на адаптации с низким рангом, страдают от ограниченной репрезентативной способности. Недавно предложенные адаптеры на основе преобразований, связанных с преобразованием Фурье (FT), обладают большей репрезентативной мощностью, чем адаптеры с низким рангом, но их прямое внедрение в квантованные модели часто приводит к неэффективному снижению ошибок и увеличению вычислительных затрат. Чтобы преодолеть эти ограничения, мы предлагаем QWHA — метод, который интегрирует адаптеры на основе FT в квантованные модели, используя преобразование Уолша-Адамара (WHT) в качестве ядра преобразования, а также новую схему инициализации адаптеров, включающую адаптивный выбор параметров и уточнение значений. Мы демонстрируем, что QWHA эффективно снижает ошибки квантования, облегчая тонкую настройку, а его конструкция существенно снижает вычислительные затраты. Экспериментальные результаты показывают, что QWHA стабильно превосходит базовые методы по точности при низкобитном квантовании и достигает значительного ускорения обучения по сравнению с существующими адаптерами на основе FT. Код доступен по адресу https://github.com/vantaa89/qwha.

English

The demand for efficient deployment of large language models (LLMs) has driven interest in quantization, which reduces inference cost, and parameter-efficient fine-tuning (PEFT), which lowers training overhead. This motivated the development of quantization-aware PEFT to produce accurate yet efficient quantized models. In this setting, reducing quantization error prior to fine-tuning is crucial for achieving high model accuracy. However, existing methods that rely on low-rank adaptation suffer from limited representational capacity. Recent Fourier-related transform (FT)-based adapters offer greater representational power than low-rank adapters, but their direct integration into quantized models often results in ineffective error reduction and increased computational overhead. To overcome these limitations, we propose QWHA, a method that integrates FT-based adapters into quantized models by employing the Walsh-Hadamard Transform (WHT) as the transform kernel, together with a novel adapter initialization scheme incorporating adaptive parameter selection and value refinement. We demonstrate that QWHA effectively mitigates quantization errors while facilitating fine-tuning, and that its design substantially reduces computational cost. Experimental results show that QWHA consistently outperforms baselines in low-bit quantization accuracy and achieves significant training speedups over existing FT-based adapters. The code is available at https://github.com/vantaa89/qwha.

QWHA: Квантование с учетом адаптации Уолша-Адамара для эффективной тонкой настройки параметров в крупных языковых моделях

QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models

Аннотация

Support