QA-LoRA: Kwantisatiebewuste Laagrang-aanpassing van Grote Taalmodellen
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models
September 26, 2023
Auteurs: Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian
cs.AI
Samenvatting
De afgelopen jaren hebben we een snelle ontwikkeling gezien van grote taalmodelen (LLMs). Ondanks de sterke prestaties in veel taalbegriptaken, beperkt de zware computationele belasting grotendeels de toepassing van LLMs, vooral wanneer men ze wil implementeren op edge-apparaten. In dit artikel stellen we een quantization-aware low-rank adaptation (QA-LoRA) algoritme voor. De motivatie ligt in de ongelijke vrijheidsgraden van quantisatie en adaptatie, en de oplossing is het gebruik van groepswijze operatoren die de vrijheidsgraad van quantisatie verhogen terwijl die van adaptatie wordt verlaagd. QA-LoRA is eenvoudig te implementeren met een paar regels code, en het voorziet het originele LoRA van twee belangrijke mogelijkheden: (i) tijdens fine-tuning worden de gewichten van het LLM gequantiseerd (bijvoorbeeld naar INT4) om tijd- en geheugengebruik te verminderen; (ii) na fine-tuning worden het LLM en de aanvullende gewichten naadloos geïntegreerd in een gequantiseerd model zonder verlies van nauwkeurigheid. We passen QA-LoRA toe op de LLaMA- en LLaMA2-modelfamilies en valideren de effectiviteit ervan in verschillende fine-tuning datasets en downstream scenario's. De code zal beschikbaar worden gesteld op https://github.com/yuhuixu1993/qa-lora.
English
Recently years have witnessed a rapid development of large language models
(LLMs). Despite the strong ability in many language-understanding tasks, the
heavy computational burden largely restricts the application of LLMs especially
when one needs to deploy them onto edge devices. In this paper, we propose a
quantization-aware low-rank adaptation (QA-LoRA) algorithm. The motivation lies
in the imbalanced degrees of freedom of quantization and adaptation, and the
solution is to use group-wise operators which increase the degree of freedom of
quantization meanwhile decreasing that of adaptation. QA-LoRA is easily
implemented with a few lines of code, and it equips the original LoRA with
two-fold abilities: (i) during fine-tuning, the LLM's weights are quantized
(e.g., into INT4) to reduce time and memory usage; (ii) after fine-tuning, the
LLM and auxiliary weights are naturally integrated into a quantized model
without loss of accuracy. We apply QA-LoRA to the LLaMA and LLaMA2 model
families and validate its effectiveness in different fine-tuning datasets and
downstream scenarios. Code will be made available at
https://github.com/yuhuixu1993/qa-lora.