Em Direção a LLMs Modulares através da Construção e Reutilização de uma Biblioteca de LoRAs
Towards Modular LLMs by Building and Reusing a Library of LoRAs
May 18, 2024
Autores: Oleksiy Ostapenko, Zhan Su, Edoardo Maria Ponti, Laurent Charlin, Nicolas Le Roux, Matheus Pereira, Lucas Caccia, Alessandro Sordoni
cs.AI
Resumo
O crescente número de adaptações eficientes em parâmetros de um modelo de linguagem grande (LLM) base demanda o estudo sobre se podemos reutilizar tais adaptadores treinados para melhorar o desempenho em novas tarefas. Investigamos como melhor construir uma biblioteca de adaptadores considerando dados multitarefa e desenvolvemos técnicas para generalização tanto em cenários zero-shot quanto supervisionados por meio de roteamento nessa biblioteca. Avaliamos abordagens existentes para construir essa biblioteca e introduzimos o agrupamento baseado em modelo, MBC, um método que agrupa tarefas com base na similaridade de seus parâmetros de adaptação, otimizando indiretamente a transferência entre o conjunto de dados multitarefa. Para reutilizar a biblioteca, apresentamos um novo mecanismo de roteamento zero-shot, Arrow, que permite a seleção dinâmica dos adaptadores mais relevantes para novas entradas sem a necessidade de retreinamento. Realizamos experimentos com vários LLMs, como Phi-2 e Mistral, em uma ampla gama de tarefas retidas, verificando que adaptadores baseados em MBC e o roteamento Arrow levam a uma generalização superior para novas tarefas. Damos passos em direção à criação de LLMs modulares e adaptáveis que podem igualar ou superar o treinamento conjunto tradicional.
English
The growing number of parameter-efficient adaptations of a base large
language model (LLM) calls for studying whether we can reuse such trained
adapters to improve performance for new tasks. We study how to best build a
library of adapters given multi-task data and devise techniques for both
zero-shot and supervised task generalization through routing in such library.
We benchmark existing approaches to build this library and introduce
model-based clustering, MBC, a method that groups tasks based on the similarity
of their adapter parameters, indirectly optimizing for transfer across the
multi-task dataset. To re-use the library, we present a novel zero-shot routing
mechanism, Arrow, which enables dynamic selection of the most relevant adapters
for new inputs without the need for retraining. We experiment with several
LLMs, such as Phi-2 and Mistral, on a wide array of held-out tasks, verifying
that MBC-based adapters and Arrow routing lead to superior generalization to
new tasks. We make steps towards creating modular, adaptable LLMs that can
match or outperform traditional joint training.