ChatPaper.aiChatPaper

LoftQ : Quantisation Consciente du Fine-Tuning LoRA pour les Grands Modèles de Langage

LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models

October 12, 2023
Auteurs: Yixiao Li, Yifan Yu, Chen Liang, Pengcheng He, Nikos Karampatziakis, Weizhu Chen, Tuo Zhao
cs.AI

Résumé

La quantification est une technique indispensable pour le déploiement des modèles de langage de grande taille (LLMs) et a récemment été intégrée dans le réglage fin par LoRA. Dans ce travail, nous nous concentrons sur le scénario où la quantification et le réglage fin par LoRA sont appliqués conjointement à un modèle pré-entraîné. Dans de tels cas, il est fréquent d'observer un écart constant dans les performances sur les tâches en aval entre l'approche de réglage fin complet et celle combinant quantification et réglage fin par LoRA. En réponse, nous proposons LoftQ (Quantification Consciente du Réglage Fin par LoRA), un nouveau cadre de quantification qui quantifie simultanément un LLM et trouve une initialisation à faible rang appropriée pour le réglage fin par LoRA. Une telle initialisation atténue la divergence entre le modèle quantifié et celui en pleine précision, améliorant significativement la généralisation dans les tâches en aval. Nous évaluons notre méthode sur des tâches de compréhension du langage naturel, de réponse à des questions, de résumé et de génération de langage naturel. Les expériences montrent que notre méthode est très efficace et surpasse les méthodes de quantification existantes, en particulier dans les régimes de précision mixte 2 bits et 2/4 bits, qui sont particulièrement difficiles. Nous publierons notre code.
English
Quantization is an indispensable technique for serving Large Language Models (LLMs) and has recently found its way into LoRA fine-tuning. In this work we focus on the scenario where quantization and LoRA fine-tuning are applied together on a pre-trained model. In such cases it is common to observe a consistent gap in the performance on downstream tasks between full fine-tuning and quantization plus LoRA fine-tuning approach. In response, we propose LoftQ (LoRA-Fine-Tuning-aware Quantization), a novel quantization framework that simultaneously quantizes an LLM and finds a proper low-rank initialization for LoRA fine-tuning. Such an initialization alleviates the discrepancy between the quantized and full-precision model and significantly improves the generalization in downstream tasks. We evaluate our method on natural language understanding, question answering, summarization, and natural language generation tasks. Experiments show that our method is highly effective and outperforms existing quantization methods, especially in the challenging 2-bit and 2/4-bit mixed precision regimes. We will release our code.
PDF284December 15, 2024