ChatPaper.aiChatPaper

QA-LoRA: Adaptación de Bajo Rango Consciente de la Cuantización para Modelos de Lenguaje de Gran Escala

QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

September 26, 2023
Autores: Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian
cs.AI

Resumen

En los últimos años, hemos presenciado un rápido desarrollo de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). A pesar de su gran capacidad en muchas tareas de comprensión del lenguaje, la pesada carga computacional limita en gran medida la aplicación de los LLMs, especialmente cuando se necesita implementarlos en dispositivos de borde. En este artículo, proponemos un algoritmo de adaptación de bajo rango consciente de la cuantización (QA-LoRA). La motivación radica en los grados de libertad desequilibrados de la cuantización y la adaptación, y la solución consiste en utilizar operadores por grupos que aumentan el grado de libertad de la cuantización mientras disminuyen el de la adaptación. QA-LoRA se implementa fácilmente con unas pocas líneas de código y dota al LoRA original de dos capacidades: (i) durante el ajuste fino, los pesos del LLM se cuantizan (por ejemplo, en INT4) para reducir el uso de tiempo y memoria; (ii) después del ajuste fino, el LLM y los pesos auxiliares se integran naturalmente en un modelo cuantizado sin pérdida de precisión. Aplicamos QA-LoRA a las familias de modelos LLaMA y LLaMA2 y validamos su efectividad en diferentes conjuntos de datos de ajuste fino y escenarios posteriores. El código estará disponible en https://github.com/yuhuixu1993/qa-lora.
English
Recently years have witnessed a rapid development of large language models (LLMs). Despite the strong ability in many language-understanding tasks, the heavy computational burden largely restricts the application of LLMs especially when one needs to deploy them onto edge devices. In this paper, we propose a quantization-aware low-rank adaptation (QA-LoRA) algorithm. The motivation lies in the imbalanced degrees of freedom of quantization and adaptation, and the solution is to use group-wise operators which increase the degree of freedom of quantization meanwhile decreasing that of adaptation. QA-LoRA is easily implemented with a few lines of code, and it equips the original LoRA with two-fold abilities: (i) during fine-tuning, the LLM's weights are quantized (e.g., into INT4) to reduce time and memory usage; (ii) after fine-tuning, the LLM and auxiliary weights are naturally integrated into a quantized model without loss of accuracy. We apply QA-LoRA to the LLaMA and LLaMA2 model families and validate its effectiveness in different fine-tuning datasets and downstream scenarios. Code will be made available at https://github.com/yuhuixu1993/qa-lora.
PDF448December 15, 2024