QA-LoRA: Quantisierungsbewusste Low-Rank-Adaption von großen Sprachmodellen
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models
September 26, 2023
Autoren: Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian
cs.AI
Zusammenfassung
In den letzten Jahren war eine rasante Entwicklung von großen Sprachmodellen (LLMs) zu beobachten. Trotz ihrer starken Fähigkeiten in vielen Sprachverständnisaufgaben schränkt die hohe Rechenlast die Anwendung von LLMs erheblich ein, insbesondere wenn sie auf Edge-Geräten eingesetzt werden sollen. In diesem Artikel schlagen wir einen Quantisierungsbewussten Low-Rank-Adaptationsalgorithmus (QA-LoRA) vor. Die Motivation liegt in den unausgeglichenen Freiheitsgraden von Quantisierung und Anpassung, und die Lösung besteht darin, gruppenweise Operatoren zu verwenden, die den Freiheitsgrad der Quantisierung erhöhen und gleichzeitig den der Anpassung verringern. QA-LoRA lässt sich mit wenigen Codezeilen einfach implementieren und stattet das ursprüngliche LoRA mit zweifachen Fähigkeiten aus: (i) Während des Feinabstimmens werden die Gewichte des LLM quantisiert (z.B. in INT4), um Zeit- und Speicherbedarf zu reduzieren; (ii) Nach dem Feinabstimmen werden das LLM und die Hilfsgewichte nahtlos in ein quantisiertes Modell integriert, ohne dass es zu Genauigkeitsverlusten kommt. Wir wenden QA-LoRA auf die LLaMA- und LLaMA2-Modellfamilien an und validieren seine Wirksamkeit in verschiedenen Feinabstimmungsdatensätzen und nachgelagerten Szenarien. Der Code wird unter https://github.com/yuhuixu1993/qa-lora verfügbar sein.
English
Recently years have witnessed a rapid development of large language models
(LLMs). Despite the strong ability in many language-understanding tasks, the
heavy computational burden largely restricts the application of LLMs especially
when one needs to deploy them onto edge devices. In this paper, we propose a
quantization-aware low-rank adaptation (QA-LoRA) algorithm. The motivation lies
in the imbalanced degrees of freedom of quantization and adaptation, and the
solution is to use group-wise operators which increase the degree of freedom of
quantization meanwhile decreasing that of adaptation. QA-LoRA is easily
implemented with a few lines of code, and it equips the original LoRA with
two-fold abilities: (i) during fine-tuning, the LLM's weights are quantized
(e.g., into INT4) to reduce time and memory usage; (ii) after fine-tuning, the
LLM and auxiliary weights are naturally integrated into a quantized model
without loss of accuracy. We apply QA-LoRA to the LLaMA and LLaMA2 model
families and validate its effectiveness in different fine-tuning datasets and
downstream scenarios. Code will be made available at
https://github.com/yuhuixu1993/qa-lora.