QWHA: 대규모 언어 모델을 위한 매개변수 효율적 미세 조정을 위한 양자화 인식 월시-해머드 적응
QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models
September 22, 2025
저자: Hyesung Jeon, Seojune Lee, Beomseok Kang, Yulhwa Kim, Jae-Joon Kim
cs.AI
초록
대규모 언어 모델(LLM)의 효율적인 배포에 대한 수요가 증가하면서, 추론 비용을 줄이는 양자화(quantization)와 훈련 오버헤드를 낮추는 파라미터 효율적 미세 조정(PEFT)에 대한 관심이 높아졌습니다. 이는 정확하면서도 효율적인 양자화 모델을 생산하기 위한 양자화 인지 PEFT(quantization-aware PEFT)의 개발을 촉진했습니다. 이러한 환경에서, 미세 조정 전에 양자화 오류를 줄이는 것은 높은 모델 정확도를 달성하는 데 중요합니다. 그러나 기존의 저순위 적응(low-rank adaptation)에 의존하는 방법들은 제한된 표현 능력으로 인해 어려움을 겪고 있습니다. 최근 푸리에 관련 변환(Fourier-related transform, FT) 기반 어댑터는 저순위 어댑터보다 더 큰 표현력을 제공하지만, 이를 양자화 모델에 직접 통합하면 오류 감소가 비효율적이고 계산 오버헤드가 증가하는 문제가 발생합니다. 이러한 한계를 극복하기 위해, 우리는 월시-해머드 변환(Walsh-Hadamard Transform, WHT)을 변환 커널로 사용하고, 적응형 파라미터 선택 및 값 정제를 포함한 새로운 어댑터 초기화 방식을 도입한 QWHA 방법을 제안합니다. QWHA는 양자화 오류를 효과적으로 완화하면서 미세 조정을 용이하게 하며, 그 설계는 계산 비용을 상당히 줄입니다. 실험 결과는 QWHA가 저비트 양자화 정확도에서 기준선을 지속적으로 능가하고, 기존 FT 기반 어댑터 대비 상당한 훈련 속도 향상을 달성함을 보여줍니다. 코드는 https://github.com/vantaa89/qwha에서 확인할 수 있습니다.
English
The demand for efficient deployment of large language models (LLMs) has
driven interest in quantization, which reduces inference cost, and
parameter-efficient fine-tuning (PEFT), which lowers training overhead. This
motivated the development of quantization-aware PEFT to produce accurate yet
efficient quantized models. In this setting, reducing quantization error prior
to fine-tuning is crucial for achieving high model accuracy. However, existing
methods that rely on low-rank adaptation suffer from limited representational
capacity. Recent Fourier-related transform (FT)-based adapters offer greater
representational power than low-rank adapters, but their direct integration
into quantized models often results in ineffective error reduction and
increased computational overhead. To overcome these limitations, we propose
QWHA, a method that integrates FT-based adapters into quantized models by
employing the Walsh-Hadamard Transform (WHT) as the transform kernel, together
with a novel adapter initialization scheme incorporating adaptive parameter
selection and value refinement. We demonstrate that QWHA effectively mitigates
quantization errors while facilitating fine-tuning, and that its design
substantially reduces computational cost. Experimental results show that QWHA
consistently outperforms baselines in low-bit quantization accuracy and
achieves significant training speedups over existing FT-based adapters. The
code is available at https://github.com/vantaa89/qwha.