Uno-per-Tutti: LoRA Generalizzato per il Fine-Tuning Efficiente dei Parametri
One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning
June 13, 2023
Autori: Arnav Chavan, Zhuang Liu, Deepak Gupta, Eric Xing, Zhiqiang Shen
cs.AI
Abstract
Presentiamo Generalized LoRA (GLoRA), un approccio avanzato per compiti universali di fine-tuning efficiente in termini di parametri. Migliorando l'Adattamento a Basso Rango (LoRA), GLoRA utilizza un modulo di prompt generalizzato per ottimizzare i pesi dei modelli pre-addestrati e regolare le attivazioni intermedie, offrendo maggiore flessibilità e capacità su una vasta gamma di compiti e dataset. Inoltre, GLoRA facilita l'adattamento efficiente dei parametri attraverso una ricerca scalabile, modulare e strato per strato della struttura, che apprende un adattatore individuale per ogni strato. Derivando da una formulazione matematica unificata, GLoRA mostra forti capacità di trasferimento dell'apprendimento, apprendimento con pochi esempi e generalizzazione di dominio, adattandosi a nuovi compiti attraverso dimensioni aggiuntive sui pesi e sulle attivazioni. Esperimenti completi dimostrano che GLoRA supera tutti i metodi precedenti in benchmark naturali, specializzati e strutturati, raggiungendo una precisione superiore con meno parametri e calcoli su vari dataset. Inoltre, il nostro design di ri-parametrizzazione strutturale garantisce che GLoRA non comporti costi aggiuntivi di inferenza, rendendolo una soluzione pratica per applicazioni con risorse limitate. Il codice è disponibile all'indirizzo: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.
English
We present Generalized LoRA (GLoRA), an advanced approach for universal
parameter-efficient fine-tuning tasks. Enhancing Low-Rank Adaptation (LoRA),
GLoRA employs a generalized prompt module to optimize pre-trained model weights
and adjust intermediate activations, providing more flexibility and capability
across diverse tasks and datasets. Moreover, GLoRA facilitates efficient
parameter adaptation by employing a scalable, modular, layer-wise structure
search that learns individual adapter of each layer. Originating from a unified
mathematical formulation, GLoRA exhibits strong transfer learning, few-shot
learning and domain generalization abilities, as it adjusts to new tasks
through additional dimensions on weights and activations. Comprehensive
experiments demonstrate that GLoRA outperforms all previous methods in natural,
specialized, and structured benchmarks, achieving superior accuracy with fewer
parameters and computations on various datasets. Furthermore, our structural
re-parameterization design ensures that GLoRA incurs no extra inference cost,
rendering it a practical solution for resource-limited applications. Code is
available at: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.