LoRA apprend moins et oublie moins
LoRA Learns Less and Forgets Less
May 15, 2024
Auteurs: Dan Biderman, Jose Gonzalez Ortiz, Jacob Portes, Mansheej Paul, Philip Greengard, Connor Jennings, Daniel King, Sam Havens, Vitaliy Chiley, Jonathan Frankle, Cody Blakeney, John P. Cunningham
cs.AI
Résumé
L'adaptation à faible rang (LoRA) est une méthode largement utilisée pour le réglage fin efficace en paramètres des grands modèles de langage. LoRA économise de la mémoire en entraînant uniquement des perturbations de faible rang sur des matrices de poids sélectionnées. Dans ce travail, nous comparons les performances de LoRA et du réglage fin complet sur deux domaines cibles, la programmation et les mathématiques. Nous considérons à la fois le réglage fin par instruction (environ 100 000 paires de prompts-réponses) et le pré-entraînement continu (environ 10 milliards de tokens non structurés). Nos résultats montrent que, dans la plupart des configurations, LoRA est nettement moins performant que le réglage fin complet. Néanmoins, LoRA présente une forme de régularisation souhaitable : il préserve mieux les performances du modèle de base sur des tâches en dehors du domaine cible. Nous montrons que LoRA offre une régularisation plus forte par rapport aux techniques courantes telles que la décroissance de poids et le dropout ; il contribue également à maintenir des générations plus diversifiées. Nous montrons que le réglage fin complet apprend des perturbations dont le rang est 10 à 100 fois supérieur aux configurations typiques de LoRA, ce qui pourrait expliquer une partie des écarts observés. Nous concluons en proposant des bonnes pratiques pour le réglage fin avec LoRA.
English
Low-Rank Adaptation (LoRA) is a widely-used parameter-efficient finetuning
method for large language models. LoRA saves memory by training only low rank
perturbations to selected weight matrices. In this work, we compare the
performance of LoRA and full finetuning on two target domains, programming and
mathematics. We consider both the instruction finetuning (approx100K
prompt-response pairs) and continued pretraining (approx10B unstructured
tokens) data regimes. Our results show that, in most settings, LoRA
substantially underperforms full finetuning. Nevertheless, LoRA exhibits a
desirable form of regularization: it better maintains the base model's
performance on tasks outside the target domain. We show that LoRA provides
stronger regularization compared to common techniques such as weight decay and
dropout; it also helps maintain more diverse generations. We show that full
finetuning learns perturbations with a rank that is 10-100X greater than
typical LoRA configurations, possibly explaining some of the reported gaps. We
conclude by proposing best practices for finetuning with LoRA.Summary
AI-Generated Summary