LoRA lernt weniger und vergisst weniger.
LoRA Learns Less and Forgets Less
May 15, 2024
Autoren: Dan Biderman, Jose Gonzalez Ortiz, Jacob Portes, Mansheej Paul, Philip Greengard, Connor Jennings, Daniel King, Sam Havens, Vitaliy Chiley, Jonathan Frankle, Cody Blakeney, John P. Cunningham
cs.AI
Zusammenfassung
Low-Rank Adaptation (LoRA) ist eine weit verbreitete, parameter-effiziente Feinabstimmungsmethode für große Sprachmodelle. LoRA spart Speicherplatz, indem es nur niederdimensionale Störungen an ausgewählten Gewichtsmatrizen trainiert. In dieser Arbeit vergleichen wir die Leistung von LoRA und vollständiger Feinabstimmung in zwei Zielbereichen, Programmierung und Mathematik. Wir betrachten sowohl die Anweisungsfeinabstimmung (ca. 100.000 Eingabe-Antwort-Paare) als auch das fortgesetzte Vortraining (ca. 10 Milliarden unstrukturierte Tokens). Unsere Ergebnisse zeigen, dass LoRA in den meisten Einstellungen deutlich schlechter abschneidet als die vollständige Feinabstimmung. Dennoch zeigt LoRA eine wünschenswerte Form der Regularisierung: Es erhält die Leistung des Basismodells besser bei Aufgaben außerhalb des Zielbereichs. Wir zeigen, dass LoRA im Vergleich zu gängigen Techniken wie Gewichtsabnahme und Dropout eine stärkere Regularisierung bietet; es hilft auch dabei, vielfältigere Generationen aufrechtzuerhalten. Wir zeigen, dass die vollständige Feinabstimmung Störungen mit einer Rangfolge lernt, die 10-100-mal größer ist als typische LoRA-Konfigurationen, was möglicherweise einige der berichteten Unterschiede erklärt. Abschließend schlagen wir bewährte Verfahren für die Feinabstimmung mit LoRA vor.
English
Low-Rank Adaptation (LoRA) is a widely-used parameter-efficient finetuning
method for large language models. LoRA saves memory by training only low rank
perturbations to selected weight matrices. In this work, we compare the
performance of LoRA and full finetuning on two target domains, programming and
mathematics. We consider both the instruction finetuning (approx100K
prompt-response pairs) and continued pretraining (approx10B unstructured
tokens) data regimes. Our results show that, in most settings, LoRA
substantially underperforms full finetuning. Nevertheless, LoRA exhibits a
desirable form of regularization: it better maintains the base model's
performance on tasks outside the target domain. We show that LoRA provides
stronger regularization compared to common techniques such as weight decay and
dropout; it also helps maintain more diverse generations. We show that full
finetuning learns perturbations with a rank that is 10-100X greater than
typical LoRA configurations, possibly explaining some of the reported gaps. We
conclude by proposing best practices for finetuning with LoRA.Summary
AI-Generated Summary