ChatPaper.aiChatPaper

Em Direção a LLMs Modulares através da Construção e Reutilização de uma Biblioteca de LoRAs

Towards Modular LLMs by Building and Reusing a Library of LoRAs

May 18, 2024
Autores: Oleksiy Ostapenko, Zhan Su, Edoardo Maria Ponti, Laurent Charlin, Nicolas Le Roux, Matheus Pereira, Lucas Caccia, Alessandro Sordoni
cs.AI

Resumo

O crescente número de adaptações eficientes em parâmetros de um modelo de linguagem grande (LLM) base demanda o estudo sobre se podemos reutilizar tais adaptadores treinados para melhorar o desempenho em novas tarefas. Investigamos como melhor construir uma biblioteca de adaptadores considerando dados multitarefa e desenvolvemos técnicas para generalização tanto em cenários zero-shot quanto supervisionados por meio de roteamento nessa biblioteca. Avaliamos abordagens existentes para construir essa biblioteca e introduzimos o agrupamento baseado em modelo, MBC, um método que agrupa tarefas com base na similaridade de seus parâmetros de adaptação, otimizando indiretamente a transferência entre o conjunto de dados multitarefa. Para reutilizar a biblioteca, apresentamos um novo mecanismo de roteamento zero-shot, Arrow, que permite a seleção dinâmica dos adaptadores mais relevantes para novas entradas sem a necessidade de retreinamento. Realizamos experimentos com vários LLMs, como Phi-2 e Mistral, em uma ampla gama de tarefas retidas, verificando que adaptadores baseados em MBC e o roteamento Arrow levam a uma generalização superior para novas tarefas. Damos passos em direção à criação de LLMs modulares e adaptáveis que podem igualar ou superar o treinamento conjunto tradicional.
English
The growing number of parameter-efficient adaptations of a base large language model (LLM) calls for studying whether we can reuse such trained adapters to improve performance for new tasks. We study how to best build a library of adapters given multi-task data and devise techniques for both zero-shot and supervised task generalization through routing in such library. We benchmark existing approaches to build this library and introduce model-based clustering, MBC, a method that groups tasks based on the similarity of their adapter parameters, indirectly optimizing for transfer across the multi-task dataset. To re-use the library, we present a novel zero-shot routing mechanism, Arrow, which enables dynamic selection of the most relevant adapters for new inputs without the need for retraining. We experiment with several LLMs, such as Phi-2 and Mistral, on a wide array of held-out tasks, verifying that MBC-based adapters and Arrow routing lead to superior generalization to new tasks. We make steps towards creating modular, adaptable LLMs that can match or outperform traditional joint training.
PDF315December 15, 2024