One-for-All: Gegeneraliseerde LoRA voor Parameter-Efficiënte Fine-tuning
One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning
June 13, 2023
Auteurs: Arnav Chavan, Zhuang Liu, Deepak Gupta, Eric Xing, Zhiqiang Shen
cs.AI
Samenvatting
We presenteren Generalized LoRA (GLoRA), een geavanceerde aanpak voor universele parameter-efficiënte fine-tuning taken. Door Low-Rank Adaptation (LoRA) te verbeteren, maakt GLoRA gebruik van een gegeneraliseerde promptmodule om de gewichten van vooraf getrainde modellen te optimaliseren en tussenliggende activeringen aan te passen, wat meer flexibiliteit en capaciteit biedt voor diverse taken en datasets. Bovendien vergemakkelijkt GLoRA efficiënte parameteraanpassing door een schaalbare, modulaire, laaggewijze structuurzoektoepassing te gebruiken die individuele adapters voor elke laag leert. Ontstaan vanuit een uniforme wiskundige formulering, toont GLoRA sterke transfer learning, few-shot learning en domeingeneralizatievermogens, doordat het zich aanpast aan nieuwe taken via extra dimensies op gewichten en activeringen. Uitgebreide experimenten tonen aan dat GLoRA alle vorige methoden overtreft in natuurlijke, gespecialiseerde en gestructureerde benchmarks, waarbij het superieure nauwkeurigheid bereikt met minder parameters en berekeningen op verschillende datasets. Verder zorgt ons ontwerp voor structurele herparameterisatie ervoor dat GLoRA geen extra inferentiekosten met zich meebrengt, wat het een praktische oplossing maakt voor toepassingen met beperkte middelen. Code is beschikbaar op: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.
English
We present Generalized LoRA (GLoRA), an advanced approach for universal
parameter-efficient fine-tuning tasks. Enhancing Low-Rank Adaptation (LoRA),
GLoRA employs a generalized prompt module to optimize pre-trained model weights
and adjust intermediate activations, providing more flexibility and capability
across diverse tasks and datasets. Moreover, GLoRA facilitates efficient
parameter adaptation by employing a scalable, modular, layer-wise structure
search that learns individual adapter of each layer. Originating from a unified
mathematical formulation, GLoRA exhibits strong transfer learning, few-shot
learning and domain generalization abilities, as it adjusts to new tasks
through additional dimensions on weights and activations. Comprehensive
experiments demonstrate that GLoRA outperforms all previous methods in natural,
specialized, and structured benchmarks, achieving superior accuracy with fewer
parameters and computations on various datasets. Furthermore, our structural
re-parameterization design ensures that GLoRA incurs no extra inference cost,
rendering it a practical solution for resource-limited applications. Code is
available at: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.