Eine Initialisierung, um sie alle zu beherrschen: Feinabstimmung durch erklärte Varianzanpassung
One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation
October 9, 2024
Autoren: Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter
cs.AI
Zusammenfassung
Foundation-Modelle (FMs) werden auf umfangreichen Datensätzen vorab trainiert und anschließend für eine spezifische Anwendungsaufgabe durch Feinabstimmung optimiert. Die erfolgreichste und am häufigsten verwendete Feinabstimmungsmethode besteht darin, die vorab trainierten Gewichte mittels einer Anpassung mit niedrigem Rang (LoRA) zu aktualisieren. LoRA führt neue Gewichtsmatrizen ein, die in der Regel zufällig mit einer gleichmäßigen Rangverteilung über die Modellgewichte initialisiert werden. Aktuelle Arbeiten konzentrieren sich auf eine gewichtsgesteuerte Initialisierung oder das Lernen von adaptiven Rängen während des Trainings. Beide Ansätze wurden bisher nur isoliert untersucht, was zu langsamer Konvergenz oder einer gleichmäßigen Rangverteilung führt und somit zu suboptimaler Leistung. Wir schlagen vor, LoRA zu verbessern, indem wir die neuen Gewichte auf datengesteuerte Weise initialisieren, indem wir die Singulärwertzerlegung auf Minibatches von Aktivierungsvektoren berechnen. Anschließend initialisieren wir die LoRA-Matrizen mit den erhaltenen rechten Singulärvektoren und verteilen die Ränge unter allen Gewichtsmatrizen neu, um den maximalen Anteil der Varianz zu erklären, und setzen das Standard-LoRA-Feinabstimmungsverfahren fort. Dies führt zu unserer neuen Methode "Erklärte Varianzadaptation" (EVA). Wir wenden EVA auf eine Vielzahl von Feinabstimmungsaufgaben an, die von der Sprachgenerierung und -verarbeitung bis zur Bildklassifizierung und dem verstärkenden Lernen reichen. EVA zeigt eine schnellere Konvergenz als Konkurrenten und erzielt den höchsten durchschnittlichen Wert über eine Vielzahl von Aufgaben pro Bereich.
English
Foundation models (FMs) are pre-trained on large-scale datasets and then
fine-tuned on a downstream task for a specific application. The most successful
and most commonly used fine-tuning method is to update the pre-trained weights
via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are
usually initialized at random with a uniform rank distribution across model
weights. Recent works focus on weight-driven initialization or learning of
adaptive ranks during training. Both approaches have only been investigated in
isolation, resulting in slow convergence or a uniform rank distribution, in
turn leading to sub-optimal performance. We propose to enhance LoRA by
initializing the new weights in a data-driven manner by computing singular
value decomposition on minibatches of activation vectors. Then, we initialize
the LoRA matrices with the obtained right-singular vectors and re-distribute
ranks among all weight matrices to explain the maximal amount of variance and
continue the standard LoRA fine-tuning procedure. This results in our new
method Explained Variance Adaptation (EVA). We apply EVA to a variety of
fine-tuning tasks ranging from language generation and understanding to image
classification and reinforcement learning. EVA exhibits faster convergence than
competitors and attains the highest average score across a multitude of tasks
per domain.Summary
AI-Generated Summary