ChatPaper.aiChatPaper

Один-для-всех: Обобщённый LoRA для параметрически эффективной тонкой настройки

One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning

June 13, 2023
Авторы: Arnav Chavan, Zhuang Liu, Deepak Gupta, Eric Xing, Zhiqiang Shen
cs.AI

Аннотация

Мы представляем Generalized LoRA (GLoRA) — продвинутый подход для универсальных задач параметрически эффективной тонкой настройки. Улучшая метод Low-Rank Adaptation (LoRA), GLoRA использует обобщённый модуль подсказок для оптимизации весов предобученных моделей и настройки промежуточных активаций, обеспечивая большую гибкость и производительность в разнообразных задачах и наборах данных. Более того, GLoRA способствует эффективной адаптации параметров за счёт масштабируемого, модульного поиска структуры по слоям, который обучает индивидуальный адаптер для каждого слоя. Исходя из единой математической формулировки, GLoRA демонстрирует мощные способности в трансферном обучении, обучении с малым количеством данных и обобщении на новые домены, адаптируясь к новым задачам через дополнительные измерения весов и активаций. Комплексные эксперименты показывают, что GLoRA превосходит все предыдущие методы на естественных, специализированных и структурированных бенчмарках, достигая превосходной точности с меньшим количеством параметров и вычислений на различных наборах данных. Кроме того, наш дизайн структурной репараметризации гарантирует, что GLoRA не требует дополнительных затрат на вывод, что делает его практичным решением для приложений с ограниченными ресурсами. Код доступен по адресу: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.
English
We present Generalized LoRA (GLoRA), an advanced approach for universal parameter-efficient fine-tuning tasks. Enhancing Low-Rank Adaptation (LoRA), GLoRA employs a generalized prompt module to optimize pre-trained model weights and adjust intermediate activations, providing more flexibility and capability across diverse tasks and datasets. Moreover, GLoRA facilitates efficient parameter adaptation by employing a scalable, modular, layer-wise structure search that learns individual adapter of each layer. Originating from a unified mathematical formulation, GLoRA exhibits strong transfer learning, few-shot learning and domain generalization abilities, as it adjusts to new tasks through additional dimensions on weights and activations. Comprehensive experiments demonstrate that GLoRA outperforms all previous methods in natural, specialized, and structured benchmarks, achieving superior accuracy with fewer parameters and computations on various datasets. Furthermore, our structural re-parameterization design ensures that GLoRA incurs no extra inference cost, rendering it a practical solution for resource-limited applications. Code is available at: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.
PDF240December 15, 2024