QA-LoRA: Adattamento Quantization-Aware a Basso Rango per Modelli Linguistici di Grandi Dimensioni
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models
September 26, 2023
Autori: Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian
cs.AI
Abstract
Negli ultimi anni si è assistito a un rapido sviluppo dei modelli linguistici di grandi dimensioni (LLM). Nonostante le notevoli capacità in molti compiti di comprensione del linguaggio, l'elevato carico computazionale limita fortemente l'applicazione degli LLM, specialmente quando si desidera implementarli su dispositivi edge. In questo articolo, proponiamo un algoritmo di adattamento a basso rango con consapevolezza della quantizzazione (QA-LoRA). La motivazione risiede nei gradi di libertà sbilanciati della quantizzazione e dell'adattamento, e la soluzione consiste nell'utilizzare operatori per gruppi che aumentano il grado di libertà della quantizzazione riducendo contemporaneamente quello dell'adattamento. QA-LoRA è facilmente implementabile con poche righe di codice e conferisce all'originale LoRA due capacità fondamentali: (i) durante il fine-tuning, i pesi dell'LLM vengono quantizzati (ad esempio, in INT4) per ridurre l'uso di tempo e memoria; (ii) dopo il fine-tuning, l'LLM e i pesi ausiliari vengono integrati naturalmente in un modello quantizzato senza perdita di accuratezza. Applichiamo QA-LoRA alle famiglie di modelli LLaMA e LLaMA2 e ne validiamo l'efficacia in diversi dataset di fine-tuning e scenari downstream. Il codice sarà reso disponibile all'indirizzo https://github.com/yuhuixu1993/qa-lora.
English
Recently years have witnessed a rapid development of large language models
(LLMs). Despite the strong ability in many language-understanding tasks, the
heavy computational burden largely restricts the application of LLMs especially
when one needs to deploy them onto edge devices. In this paper, we propose a
quantization-aware low-rank adaptation (QA-LoRA) algorithm. The motivation lies
in the imbalanced degrees of freedom of quantization and adaptation, and the
solution is to use group-wise operators which increase the degree of freedom of
quantization meanwhile decreasing that of adaptation. QA-LoRA is easily
implemented with a few lines of code, and it equips the original LoRA with
two-fold abilities: (i) during fine-tuning, the LLM's weights are quantized
(e.g., into INT4) to reduce time and memory usage; (ii) after fine-tuning, the
LLM and auxiliary weights are naturally integrated into a quantized model
without loss of accuracy. We apply QA-LoRA to the LLaMA and LLaMA2 model
families and validate its effectiveness in different fine-tuning datasets and
downstream scenarios. Code will be made available at
https://github.com/yuhuixu1993/qa-lora.