Auf dem Weg zu modularen LLMs durch den Aufbau und die Wiederverwendung einer Bibliothek von LoRAs.
Towards Modular LLMs by Building and Reusing a Library of LoRAs
May 18, 2024
Autoren: Oleksiy Ostapenko, Zhan Su, Edoardo Maria Ponti, Laurent Charlin, Nicolas Le Roux, Matheus Pereira, Lucas Caccia, Alessandro Sordoni
cs.AI
Zusammenfassung
Die wachsende Anzahl von parameter-effizienten Anpassungen eines großen Basissprachmodells (LLM) erfordert die Untersuchung, ob wir solche trainierten Adapter wiederverwenden können, um die Leistung für neue Aufgaben zu verbessern. Wir untersuchen, wie man am besten eine Bibliothek von Adaptern aufbaut, die auf Multi-Task-Daten basiert, und entwickeln Techniken sowohl für die Generalisierung von Nullschuss als auch für überwachte Aufgaben durch Routing in einer solchen Bibliothek. Wir bewerten bestehende Ansätze zum Aufbau dieser Bibliothek und führen modellbasiertes Clustering, MBC, ein, eine Methode, die Aufgaben basierend auf der Ähnlichkeit ihrer Adapterparameter gruppiert und indirekt die Übertragung über den Multi-Task-Datensatz optimiert. Um die Bibliothek wiederzuverwenden, präsentieren wir einen neuartigen Nullschuss-Routing-Mechanismus, Arrow, der die dynamische Auswahl der relevantesten Adapter für neue Eingaben ermöglicht, ohne dass eine erneute Schulung erforderlich ist. Wir experimentieren mit mehreren LLMs, wie Phi-2 und Mistral, auf einer Vielzahl von zurückgehaltenen Aufgaben und bestätigen, dass MBC-basierte Adapter und Arrow-Routing zu einer überlegenen Generalisierung auf neue Aufgaben führen. Wir machen Schritte hin zur Schaffung modularer, anpassungsfähiger LLMs, die mit oder besser als herkömmliches gemeinsames Training abschneiden können.
English
The growing number of parameter-efficient adaptations of a base large
language model (LLM) calls for studying whether we can reuse such trained
adapters to improve performance for new tasks. We study how to best build a
library of adapters given multi-task data and devise techniques for both
zero-shot and supervised task generalization through routing in such library.
We benchmark existing approaches to build this library and introduce
model-based clustering, MBC, a method that groups tasks based on the similarity
of their adapter parameters, indirectly optimizing for transfer across the
multi-task dataset. To re-use the library, we present a novel zero-shot routing
mechanism, Arrow, which enables dynamic selection of the most relevant adapters
for new inputs without the need for retraining. We experiment with several
LLMs, such as Phi-2 and Mistral, on a wide array of held-out tasks, verifying
that MBC-based adapters and Arrow routing lead to superior generalization to
new tasks. We make steps towards creating modular, adaptable LLMs that can
match or outperform traditional joint training.Summary
AI-Generated Summary