ChatPaper.aiChatPaper

VeRA: Vektorbasierte Anpassung zufälliger Matrizen

VeRA: Vector-based Random Matrix Adaptation

October 17, 2023
Autoren: Dawid Jan Kopiczko, Tijmen Blankevoort, Yuki Markus Asano
cs.AI

Zusammenfassung

Low-Rank Adaptation (LoRA) ist eine weit verbreitete Methode, die die Anzahl der trainierbaren Parameter bei der Feinabstimmung großer Sprachmodelle reduziert, jedoch weiterhin erhebliche Speicherherausforderungen aufwirft, wenn sie auf noch größere Modelle skaliert oder zahlreiche benutzer- oder aufgabenspezifisch angepasste Modelle bereitgestellt werden soll. In dieser Arbeit stellen wir Vector-based Random Matrix Adaptation (VeRA) vor, das die Anzahl der trainierbaren Parameter im Vergleich zu LoRA um das 10-fache reduziert, dabei aber die gleiche Leistung beibehält. Dies wird erreicht, indem ein einzelnes Paar von Low-Rank-Matrizen verwendet wird, die über alle Schichten hinweg geteilt werden, und stattdessen kleine Skalierungsvektoren gelernt werden. Wir demonstrieren die Wirksamkeit dieser Methode anhand der GLUE- und E2E-Benchmarks und zeigen ihre Anwendung bei der Befolgung von Anweisungen mit nur 1,4 Millionen Parametern unter Verwendung des Llama2 7B-Modells.
English
Low-rank adapation (LoRA) is a popular method that reduces the number of trainable parameters when finetuning large language models, but still faces acute storage challenges when scaling to even larger models or deploying numerous per-user or per-task adapted models. In this work, we present Vector-based Random Matrix Adaptation (VeRA), which reduces the number of trainable parameters by 10x compared to LoRA, yet maintains the same performance. It achieves this by using a single pair of low-rank matrices shared across all layers and learning small scaling vectors instead. We demonstrate its effectiveness on the GLUE and E2E benchmarks, and show its application in instruction-following with just 1.4M parameters using the Llama2 7B model.
PDF301December 15, 2024