Hacia LLMs Modulares mediante la Construcción y Reutilización de una Biblioteca de LoRAs
Towards Modular LLMs by Building and Reusing a Library of LoRAs
May 18, 2024
Autores: Oleksiy Ostapenko, Zhan Su, Edoardo Maria Ponti, Laurent Charlin, Nicolas Le Roux, Matheus Pereira, Lucas Caccia, Alessandro Sordoni
cs.AI
Resumen
El creciente número de adaptaciones eficientes en parámetros de un modelo de lenguaje grande (LLM) base plantea la necesidad de estudiar si podemos reutilizar dichos adaptadores entrenados para mejorar el rendimiento en nuevas tareas. Investigamos cómo construir de manera óptima una biblioteca de adaptadores dados datos multitarea y desarrollamos técnicas para la generalización tanto en tareas de cero disparos como supervisadas mediante el enrutamiento en dicha biblioteca. Evaluamos enfoques existentes para construir esta biblioteca e introducimos el agrupamiento basado en modelos, MBC, un método que agrupa tareas según la similitud de sus parámetros de adaptadores, optimizando indirectamente la transferencia a través del conjunto de datos multitarea. Para reutilizar la biblioteca, presentamos un nuevo mecanismo de enrutamiento de cero disparos, Arrow, que permite la selección dinámica de los adaptadores más relevantes para nuevas entradas sin necesidad de reentrenamiento. Experimentamos con varios LLMs, como Phi-2 y Mistral, en una amplia gama de tareas retenidas, verificando que los adaptadores basados en MBC y el enrutamiento Arrow conducen a una generalización superior en nuevas tareas. Damos pasos hacia la creación de LLMs modulares y adaptables que pueden igualar o superar el entrenamiento conjunto tradicional.
English
The growing number of parameter-efficient adaptations of a base large
language model (LLM) calls for studying whether we can reuse such trained
adapters to improve performance for new tasks. We study how to best build a
library of adapters given multi-task data and devise techniques for both
zero-shot and supervised task generalization through routing in such library.
We benchmark existing approaches to build this library and introduce
model-based clustering, MBC, a method that groups tasks based on the similarity
of their adapter parameters, indirectly optimizing for transfer across the
multi-task dataset. To re-use the library, we present a novel zero-shot routing
mechanism, Arrow, which enables dynamic selection of the most relevant adapters
for new inputs without the need for retraining. We experiment with several
LLMs, such as Phi-2 and Mistral, on a wide array of held-out tasks, verifying
that MBC-based adapters and Arrow routing lead to superior generalization to
new tasks. We make steps towards creating modular, adaptable LLMs that can
match or outperform traditional joint training.Summary
AI-Generated Summary