QA-LoRA: Квантование с учетом низкоранговой адаптации крупных языковых моделей
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models
September 26, 2023
Авторы: Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian
cs.AI
Аннотация
В последние годы наблюдается стремительное развитие крупных языковых моделей (LLM). Несмотря на их высокую эффективность в задачах понимания языка, значительная вычислительная нагрузка существенно ограничивает применение LLM, особенно при необходимости их развертывания на периферийных устройствах. В данной статье мы предлагаем алгоритм квантования с учетом низкоранговой адаптации (QA-LoRA). Основная мотивация заключается в дисбалансе степеней свободы квантования и адаптации, а решение состоит в использовании групповых операторов, которые увеличивают степень свободы квантования, одновременно уменьшая степень свободы адаптации. QA-LoRA легко реализуется с помощью нескольких строк кода и наделяет оригинальный LoRA двумя ключевыми возможностями: (i) во время тонкой настройки веса LLM квантуются (например, в INT4) для сокращения времени и использования памяти; (ii) после тонкой настройки LLM и вспомогательные веса естественным образом интегрируются в квантованную модель без потери точности. Мы применяем QA-LoRA к семействам моделей LLaMA и LLaMA2 и подтверждаем ее эффективность на различных наборах данных для тонкой настройки и в различных сценариях использования. Код будет доступен по адресу https://github.com/yuhuixu1993/qa-lora.
English
Recently years have witnessed a rapid development of large language models
(LLMs). Despite the strong ability in many language-understanding tasks, the
heavy computational burden largely restricts the application of LLMs especially
when one needs to deploy them onto edge devices. In this paper, we propose a
quantization-aware low-rank adaptation (QA-LoRA) algorithm. The motivation lies
in the imbalanced degrees of freedom of quantization and adaptation, and the
solution is to use group-wise operators which increase the degree of freedom of
quantization meanwhile decreasing that of adaptation. QA-LoRA is easily
implemented with a few lines of code, and it equips the original LoRA with
two-fold abilities: (i) during fine-tuning, the LLM's weights are quantized
(e.g., into INT4) to reduce time and memory usage; (ii) after fine-tuning, the
LLM and auxiliary weights are naturally integrated into a quantized model
without loss of accuracy. We apply QA-LoRA to the LLaMA and LLaMA2 model
families and validate its effectiveness in different fine-tuning datasets and
downstream scenarios. Code will be made available at
https://github.com/yuhuixu1993/qa-lora.