VeRA: Vector-gebaseerde Aanpassing van Willekeurige Matrices
VeRA: Vector-based Random Matrix Adaptation
October 17, 2023
Auteurs: Dawid Jan Kopiczko, Tijmen Blankevoort, Yuki Markus Asano
cs.AI
Samenvatting
Low-rank adaptatie (LoRA) is een populaire methode die het aantal trainbare parameters vermindert bij het finetunen van grote taalmodelen, maar nog steeds te maken heeft met aanzienlijke opslaguitdagingen bij het opschalen naar nog grotere modellen of het implementeren van talrijke per gebruiker of per taak aangepaste modellen. In dit werk presenteren we Vector-based Random Matrix Adaptation (VeRA), dat het aantal trainbare parameters met 10x vermindert in vergelijking met LoRA, maar toch dezelfde prestaties behoudt. Dit wordt bereikt door gebruik te maken van een enkel paar low-rank matrices die gedeeld worden over alle lagen en door kleine schaalvectoren te leren in plaats daarvan. We demonstreren de effectiviteit ervan op de GLUE- en E2E-benchmarks, en tonen de toepassing ervan in instructievolging met slechts 1,4M parameters met behulp van het Llama2 7B-model.
English
Low-rank adapation (LoRA) is a popular method that reduces the number of
trainable parameters when finetuning large language models, but still faces
acute storage challenges when scaling to even larger models or deploying
numerous per-user or per-task adapted models. In this work, we present
Vector-based Random Matrix Adaptation (VeRA), which reduces the number of
trainable parameters by 10x compared to LoRA, yet maintains the same
performance. It achieves this by using a single pair of low-rank matrices
shared across all layers and learning small scaling vectors instead. We
demonstrate its effectiveness on the GLUE and E2E benchmarks, and show its
application in instruction-following with just 1.4M parameters using the Llama2
7B model.