ChatPaper.aiChatPaper

QA-LoRA: Adaptação de Baixo Rank Consciente de Quantização para Modelos de Linguagem de Grande Escala

QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

September 26, 2023
Autores: Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian
cs.AI

Resumo

Nos últimos anos, testemunhamos um rápido desenvolvimento dos grandes modelos de linguagem (LLMs). Apesar da forte capacidade em muitas tarefas de compreensão de linguagem, o pesado fardo computacional restringe amplamente a aplicação dos LLMs, especialmente quando é necessário implantá-los em dispositivos de borda. Neste artigo, propomos um algoritmo de adaptação de baixo posto com consciência de quantização (QA-LoRA). A motivação reside nos graus desequilibrados de liberdade da quantização e da adaptação, e a solução é usar operadores por grupo, que aumentam o grau de liberdade da quantização enquanto diminuem o da adaptação. O QA-LoRA é facilmente implementado com poucas linhas de código e equipa o LoRA original com duas habilidades: (i) durante o ajuste fino, os pesos do LLM são quantizados (por exemplo, em INT4) para reduzir o uso de tempo e memória; (ii) após o ajuste fino, o LLM e os pesos auxiliares são naturalmente integrados em um modelo quantizado sem perda de precisão. Aplicamos o QA-LoRA às famílias de modelos LLaMA e LLaMA2 e validamos sua eficácia em diferentes conjuntos de dados de ajuste fino e cenários subsequentes. O código estará disponível em https://github.com/yuhuixu1993/qa-lora.
English
Recently years have witnessed a rapid development of large language models (LLMs). Despite the strong ability in many language-understanding tasks, the heavy computational burden largely restricts the application of LLMs especially when one needs to deploy them onto edge devices. In this paper, we propose a quantization-aware low-rank adaptation (QA-LoRA) algorithm. The motivation lies in the imbalanced degrees of freedom of quantization and adaptation, and the solution is to use group-wise operators which increase the degree of freedom of quantization meanwhile decreasing that of adaptation. QA-LoRA is easily implemented with a few lines of code, and it equips the original LoRA with two-fold abilities: (i) during fine-tuning, the LLM's weights are quantized (e.g., into INT4) to reduce time and memory usage; (ii) after fine-tuning, the LLM and auxiliary weights are naturally integrated into a quantized model without loss of accuracy. We apply QA-LoRA to the LLaMA and LLaMA2 model families and validate its effectiveness in different fine-tuning datasets and downstream scenarios. Code will be made available at https://github.com/yuhuixu1993/qa-lora.
PDF458December 15, 2024