QA-LoRA : Adaptation Quantification-Aware à Faible Rang des Grands Modèles de Langage
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models
September 26, 2023
Auteurs: Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian
cs.AI
Résumé
Ces dernières années ont été marquées par un développement rapide des modèles de langage de grande taille (LLMs). Malgré leurs performances impressionnantes dans de nombreuses tâches de compréhension du langage, leur lourde charge de calcul limite considérablement leur application, en particulier lorsqu'il s'agit de les déployer sur des dispositifs périphériques. Dans cet article, nous proposons un algorithme d'adaptation à faible rang prenant en compte la quantification (QA-LoRA). La motivation repose sur le déséquilibre des degrés de liberté entre la quantification et l'adaptation, et la solution consiste à utiliser des opérateurs par groupes qui augmentent le degré de liberté de la quantification tout en réduisant celui de l'adaptation. QA-LoRA est facilement implémentable avec quelques lignes de code, et il dote l'original LoRA de deux capacités : (i) pendant le réglage fin, les poids du LLM sont quantifiés (par exemple, en INT4) pour réduire l'utilisation du temps et de la mémoire ; (ii) après le réglage fin, le LLM et les poids auxiliaires sont naturellement intégrés dans un modèle quantifié sans perte de précision. Nous appliquons QA-LoRA aux familles de modèles LLaMA et LLaMA2 et validons son efficacité sur différents ensembles de données de réglage fin et scénarios en aval. Le code sera disponible à l'adresse https://github.com/yuhuixu1993/qa-lora.
English
Recently years have witnessed a rapid development of large language models
(LLMs). Despite the strong ability in many language-understanding tasks, the
heavy computational burden largely restricts the application of LLMs especially
when one needs to deploy them onto edge devices. In this paper, we propose a
quantization-aware low-rank adaptation (QA-LoRA) algorithm. The motivation lies
in the imbalanced degrees of freedom of quantization and adaptation, and the
solution is to use group-wise operators which increase the degree of freedom of
quantization meanwhile decreasing that of adaptation. QA-LoRA is easily
implemented with a few lines of code, and it equips the original LoRA with
two-fold abilities: (i) during fine-tuning, the LLM's weights are quantized
(e.g., into INT4) to reduce time and memory usage; (ii) after fine-tuning, the
LLM and auxiliary weights are naturally integrated into a quantized model
without loss of accuracy. We apply QA-LoRA to the LLaMA and LLaMA2 model
families and validate its effectiveness in different fine-tuning datasets and
downstream scenarios. Code will be made available at
https://github.com/yuhuixu1993/qa-lora.