К модульным LLM с помощью создания и повторного использования библиотеки LoRA.
Towards Modular LLMs by Building and Reusing a Library of LoRAs
May 18, 2024
Авторы: Oleksiy Ostapenko, Zhan Su, Edoardo Maria Ponti, Laurent Charlin, Nicolas Le Roux, Matheus Pereira, Lucas Caccia, Alessandro Sordoni
cs.AI
Аннотация
Растущее количество параметроэффективных адаптаций базовой крупной модели языка (LLM) требует изучения возможности повторного использования таких обученных адаптеров для улучшения производительности на новых задачах. Мы исследуем, как лучше всего создать библиотеку адаптеров на основе мультизадачных данных и разрабатываем методики как для обобщения задач как с нулевым шотом, так и с учителем через маршрутизацию в такой библиотеке. Мы сравниваем существующие подходы к созданию этой библиотеки и представляем модельно-основанную кластеризацию, MBC, метод, который группирует задачи на основе сходства их параметров адаптеров, косвенно оптимизируя передачу через мультизадачный набор данных. Для повторного использования библиотеки мы представляем новый механизм нулевой маршрутизации, Arrow, который обеспечивает динамический выбор наиболее релевантных адаптеров для новых входных данных без необходимости повторного обучения. Мы экспериментируем с несколькими LLM, такими как Phi-2 и Mistral, на широком спектре задач, подтверждая, что адаптеры на основе MBC и маршрутизация Arrow приводят к превосходному обобщению на новые задачи. Мы делаем шаги к созданию модульных, адаптивных LLM, способных соответствовать или превзойти традиционное совместное обучение.
English
The growing number of parameter-efficient adaptations of a base large
language model (LLM) calls for studying whether we can reuse such trained
adapters to improve performance for new tasks. We study how to best build a
library of adapters given multi-task data and devise techniques for both
zero-shot and supervised task generalization through routing in such library.
We benchmark existing approaches to build this library and introduce
model-based clustering, MBC, a method that groups tasks based on the similarity
of their adapter parameters, indirectly optimizing for transfer across the
multi-task dataset. To re-use the library, we present a novel zero-shot routing
mechanism, Arrow, which enables dynamic selection of the most relevant adapters
for new inputs without the need for retraining. We experiment with several
LLMs, such as Phi-2 and Mistral, on a wide array of held-out tasks, verifying
that MBC-based adapters and Arrow routing lead to superior generalization to
new tasks. We make steps towards creating modular, adaptable LLMs that can
match or outperform traditional joint training.Summary
AI-Generated Summary