ChatPaper.aiChatPaper

LoftQ: LoRA-Fine-Tuning-Gevoelige Kwantisatie voor Grote Taalmodellen

LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models

October 12, 2023
Auteurs: Yixiao Li, Yifan Yu, Chen Liang, Pengcheng He, Nikos Karampatziakis, Weizhu Chen, Tuo Zhao
cs.AI

Samenvatting

Kwantisatie is een onmisbare techniek voor het inzetten van Large Language Models (LLM's) en heeft recentelijk zijn weg gevonden naar LoRA-finetuning. In dit werk richten we ons op het scenario waarbij kwantisatie en LoRA-finetuning samen worden toegepast op een vooraf getraind model. In dergelijke gevallen is het gebruikelijk om een consistent prestatieverschil waar te nemen op downstream taken tussen volledige finetuning en de aanpak van kwantisatie plus LoRA-finetuning. Als reactie hierop stellen we LoftQ (LoRA-Finetuning-aware Quantization) voor, een nieuw kwantisatiekader dat tegelijkertijd een LLM kwantiseert en een geschikte lage-rang initialisatie vindt voor LoRA-finetuning. Een dergelijke initialisatie vermindert het verschil tussen het gekwantiseerde en het volledige precisiemodel en verbetert de generalisatie aanzienlijk in downstream taken. We evalueren onze methode op taken voor natuurlijke taalbegrip, vraagbeantwoording, samenvatting en natuurlijke taalgeneratie. Experimenten tonen aan dat onze methode zeer effectief is en bestaande kwantisatiemethoden overtreft, vooral in de uitdagende 2-bit en 2/4-bit mixed precision regimes. We zullen onze code vrijgeven.
English
Quantization is an indispensable technique for serving Large Language Models (LLMs) and has recently found its way into LoRA fine-tuning. In this work we focus on the scenario where quantization and LoRA fine-tuning are applied together on a pre-trained model. In such cases it is common to observe a consistent gap in the performance on downstream tasks between full fine-tuning and quantization plus LoRA fine-tuning approach. In response, we propose LoftQ (LoRA-Fine-Tuning-aware Quantization), a novel quantization framework that simultaneously quantizes an LLM and finds a proper low-rank initialization for LoRA fine-tuning. Such an initialization alleviates the discrepancy between the quantized and full-precision model and significantly improves the generalization in downstream tasks. We evaluate our method on natural language understanding, question answering, summarization, and natural language generation tasks. Experiments show that our method is highly effective and outperforms existing quantization methods, especially in the challenging 2-bit and 2/4-bit mixed precision regimes. We will release our code.
PDF274February 17, 2026