Uno para todos: LoRA generalizado para ajuste fino eficiente en parámetros
One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning
June 13, 2023
Autores: Arnav Chavan, Zhuang Liu, Deepak Gupta, Eric Xing, Zhiqiang Shen
cs.AI
Resumen
Presentamos Generalized LoRA (GLoRA), un enfoque avanzado para tareas universales de ajuste fino eficiente en parámetros. Mejorando la Adaptación de Bajo Rango (LoRA), GLoRA emplea un módulo de prompt generalizado para optimizar los pesos de modelos preentrenados y ajustar las activaciones intermedias, proporcionando mayor flexibilidad y capacidad en diversas tareas y conjuntos de datos. Además, GLoRA facilita la adaptación eficiente de parámetros mediante una búsqueda escalable, modular y por capas que aprende adaptadores individuales para cada capa. Originado a partir de una formulación matemática unificada, GLoRA exhibe fuertes habilidades de aprendizaje por transferencia, aprendizaje con pocos ejemplos y generalización de dominio, ya que se adapta a nuevas tareas a través de dimensiones adicionales en pesos y activaciones. Experimentos exhaustivos demuestran que GLoRA supera a todos los métodos anteriores en benchmarks naturales, especializados y estructurados, logrando una precisión superior con menos parámetros y cálculos en varios conjuntos de datos. Además, nuestro diseño de re-parametrización estructural garantiza que GLoRA no incurra en costos adicionales de inferencia, convirtiéndolo en una solución práctica para aplicaciones con recursos limitados. El código está disponible en: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.
English
We present Generalized LoRA (GLoRA), an advanced approach for universal
parameter-efficient fine-tuning tasks. Enhancing Low-Rank Adaptation (LoRA),
GLoRA employs a generalized prompt module to optimize pre-trained model weights
and adjust intermediate activations, providing more flexibility and capability
across diverse tasks and datasets. Moreover, GLoRA facilitates efficient
parameter adaptation by employing a scalable, modular, layer-wise structure
search that learns individual adapter of each layer. Originating from a unified
mathematical formulation, GLoRA exhibits strong transfer learning, few-shot
learning and domain generalization abilities, as it adjusts to new tasks
through additional dimensions on weights and activations. Comprehensive
experiments demonstrate that GLoRA outperforms all previous methods in natural,
specialized, and structured benchmarks, achieving superior accuracy with fewer
parameters and computations on various datasets. Furthermore, our structural
re-parameterization design ensures that GLoRA incurs no extra inference cost,
rendering it a practical solution for resource-limited applications. Code is
available at: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.