LoRA lernt weniger und vergisst weniger.

papers.abstract

Low-Rank Adaptation (LoRA) ist eine weit verbreitete, parameter-effiziente Feinabstimmungsmethode für große Sprachmodelle. LoRA spart Speicherplatz, indem es nur niederdimensionale Störungen an ausgewählten Gewichtsmatrizen trainiert. In dieser Arbeit vergleichen wir die Leistung von LoRA und vollständiger Feinabstimmung in zwei Zielbereichen, Programmierung und Mathematik. Wir betrachten sowohl die Anweisungsfeinabstimmung (ca. 100.000 Eingabe-Antwort-Paare) als auch das fortgesetzte Vortraining (ca. 10 Milliarden unstrukturierte Tokens). Unsere Ergebnisse zeigen, dass LoRA in den meisten Einstellungen deutlich schlechter abschneidet als die vollständige Feinabstimmung. Dennoch zeigt LoRA eine wünschenswerte Form der Regularisierung: Es erhält die Leistung des Basismodells besser bei Aufgaben außerhalb des Zielbereichs. Wir zeigen, dass LoRA im Vergleich zu gängigen Techniken wie Gewichtsabnahme und Dropout eine stärkere Regularisierung bietet; es hilft auch dabei, vielfältigere Generationen aufrechtzuerhalten. Wir zeigen, dass die vollständige Feinabstimmung Störungen mit einer Rangfolge lernt, die 10-100-mal größer ist als typische LoRA-Konfigurationen, was möglicherweise einige der berichteten Unterschiede erklärt. Abschließend schlagen wir bewährte Verfahren für die Feinabstimmung mit LoRA vor.

English

Low-Rank Adaptation (LoRA) is a widely-used parameter-efficient finetuning method for large language models. LoRA saves memory by training only low rank perturbations to selected weight matrices. In this work, we compare the performance of LoRA and full finetuning on two target domains, programming and mathematics. We consider both the instruction finetuning (approx100K prompt-response pairs) and continued pretraining (approx10B unstructured tokens) data regimes. Our results show that, in most settings, LoRA substantially underperforms full finetuning. Nevertheless, LoRA exhibits a desirable form of regularization: it better maintains the base model's performance on tasks outside the target domain. We show that LoRA provides stronger regularization compared to common techniques such as weight decay and dropout; it also helps maintain more diverse generations. We show that full finetuning learns perturbations with a rank that is 10-100X greater than typical LoRA configurations, possibly explaining some of the reported gaps. We conclude by proposing best practices for finetuning with LoRA.

LoRA lernt weniger und vergisst weniger.

LoRA Learns Less and Forgets Less

papers.abstract

Support