Naar modulaire LLM's door het bouwen en hergebruiken van een bibliotheek van LoRA's
Towards Modular LLMs by Building and Reusing a Library of LoRAs
May 18, 2024
Auteurs: Oleksiy Ostapenko, Zhan Su, Edoardo Maria Ponti, Laurent Charlin, Nicolas Le Roux, Matheus Pereira, Lucas Caccia, Alessandro Sordoni
cs.AI
Samenvatting
Het groeiende aantal parameter-efficiënte aanpassingen van een basis groot
taalmodel (LLM) roept de vraag op of we dergelijke getrainde adapters kunnen
hergebruiken om de prestaties voor nieuwe taken te verbeteren. We onderzoeken
hoe we het beste een bibliotheek van adapters kunnen opbouwen, gegeven
multi-task data, en ontwikkelen technieken voor zowel zero-shot als supervised
task generalisatie door middel van routering in zo'n bibliotheek. We
benchmarken bestaande benaderingen om deze bibliotheek op te bouwen en
introduceren modelgebaseerde clustering, MBC, een methode die taken groepeert
op basis van de gelijkenis van hun adapterparameters, wat indirect optimaliseert
voor overdracht over de multi-task dataset. Om de bibliotheek te hergebruiken,
presenteren we een nieuw zero-shot routeringsmechanisme, Arrow, dat dynamische
selectie van de meest relevante adapters voor nieuwe invoer mogelijk maakt
zonder de noodzaak van hertraining. We experimenteren met verschillende LLM's,
zoals Phi-2 en Mistral, op een breed scala aan achtergehouden taken, en
verifiëren dat MBC-gebaseerde adapters en Arrow-routering leiden tot superieure
generalisatie naar nieuwe taken. We zetten stappen naar het creëren van
modulaire, aanpasbare LLM's die traditionele gezamenlijke training kunnen
evenaren of overtreffen.
English
The growing number of parameter-efficient adaptations of a base large
language model (LLM) calls for studying whether we can reuse such trained
adapters to improve performance for new tasks. We study how to best build a
library of adapters given multi-task data and devise techniques for both
zero-shot and supervised task generalization through routing in such library.
We benchmark existing approaches to build this library and introduce
model-based clustering, MBC, a method that groups tasks based on the similarity
of their adapter parameters, indirectly optimizing for transfer across the
multi-task dataset. To re-use the library, we present a novel zero-shot routing
mechanism, Arrow, which enables dynamic selection of the most relevant adapters
for new inputs without the need for retraining. We experiment with several
LLMs, such as Phi-2 and Mistral, on a wide array of held-out tasks, verifying
that MBC-based adapters and Arrow routing lead to superior generalization to
new tasks. We make steps towards creating modular, adaptable LLMs that can
match or outperform traditional joint training.