Vers des LLMs modulaires grâce à la construction et à la réutilisation d'une bibliothèque de LoRAs
Towards Modular LLMs by Building and Reusing a Library of LoRAs
May 18, 2024
Auteurs: Oleksiy Ostapenko, Zhan Su, Edoardo Maria Ponti, Laurent Charlin, Nicolas Le Roux, Matheus Pereira, Lucas Caccia, Alessandro Sordoni
cs.AI
Résumé
L'augmentation du nombre d'adaptations paramétriquement efficaces d'un modèle de langage de base (LLM) nécessite d'étudier si nous pouvons réutiliser ces adaptateurs entraînés pour améliorer les performances sur de nouvelles tâches. Nous étudions comment construire au mieux une bibliothèque d'adaptateurs à partir de données multi-tâches et concevons des techniques pour la généralisation à la fois en mode zéro-shot et supervisé grâce à un routage dans cette bibliothèque. Nous évaluons les approches existantes pour construire cette bibliothèque et introduisons le clustering basé sur le modèle, MBC, une méthode qui regroupe les tâches en fonction de la similarité de leurs paramètres d'adaptateurs, optimisant indirectement le transfert à travers l'ensemble de données multi-tâches. Pour réutiliser la bibliothèque, nous présentons un nouveau mécanisme de routage zéro-shot, Arrow, qui permet une sélection dynamique des adaptateurs les plus pertinents pour de nouvelles entrées sans nécessiter de réentraînement. Nous expérimentons avec plusieurs LLMs, tels que Phi-2 et Mistral, sur un large éventail de tâches réservées, vérifiant que les adaptateurs basés sur MBC et le routage Arrow conduisent à une généralisation supérieure sur de nouvelles tâches. Nous faisons des pas vers la création de LLMs modulaires et adaptables qui peuvent égaler ou surpasser l'entraînement conjoint traditionnel.
English
The growing number of parameter-efficient adaptations of a base large
language model (LLM) calls for studying whether we can reuse such trained
adapters to improve performance for new tasks. We study how to best build a
library of adapters given multi-task data and devise techniques for both
zero-shot and supervised task generalization through routing in such library.
We benchmark existing approaches to build this library and introduce
model-based clustering, MBC, a method that groups tasks based on the similarity
of their adapter parameters, indirectly optimizing for transfer across the
multi-task dataset. To re-use the library, we present a novel zero-shot routing
mechanism, Arrow, which enables dynamic selection of the most relevant adapters
for new inputs without the need for retraining. We experiment with several
LLMs, such as Phi-2 and Mistral, on a wide array of held-out tasks, verifying
that MBC-based adapters and Arrow routing lead to superior generalization to
new tasks. We make steps towards creating modular, adaptable LLMs that can
match or outperform traditional joint training.Summary
AI-Generated Summary