Verso LLM Modulari attraverso la Costruzione e il Riutilizzo di una Libreria di LoRA
Towards Modular LLMs by Building and Reusing a Library of LoRAs
May 18, 2024
Autori: Oleksiy Ostapenko, Zhan Su, Edoardo Maria Ponti, Laurent Charlin, Nicolas Le Roux, Matheus Pereira, Lucas Caccia, Alessandro Sordoni
cs.AI
Abstract
Il crescente numero di adattamenti efficienti in termini di parametri di un modello linguistico di base di grandi dimensioni (LLM) richiede di studiare se possiamo riutilizzare tali adattatori addestrati per migliorare le prestazioni su nuovi compiti. Studiamo come costruire al meglio una libreria di adattatori dati multi-task e sviluppiamo tecniche per la generalizzazione sia in modalità zero-shot che supervisionata attraverso il routing in tale libreria. Valutiamo approcci esistenti per costruire questa libreria e introduciamo il clustering basato su modello, MBC, un metodo che raggruppa i compiti in base alla similarità dei loro parametri di adattamento, ottimizzando indirettamente il trasferimento attraverso il dataset multi-task. Per riutilizzare la libreria, presentiamo un nuovo meccanismo di routing zero-shot, Arrow, che consente la selezione dinamica degli adattatori più rilevanti per nuovi input senza la necessità di riaddestramento. Sperimentiamo con diversi LLM, come Phi-2 e Mistral, su un'ampia gamma di compiti tenuti da parte, verificando che gli adattatori basati su MBC e il routing Arrow portano a una generalizzazione superiore su nuovi compiti. Facciamo passi verso la creazione di LLM modulari e adattabili che possono eguagliare o superare l'addestramento congiunto tradizionale.
English
The growing number of parameter-efficient adaptations of a base large
language model (LLM) calls for studying whether we can reuse such trained
adapters to improve performance for new tasks. We study how to best build a
library of adapters given multi-task data and devise techniques for both
zero-shot and supervised task generalization through routing in such library.
We benchmark existing approaches to build this library and introduce
model-based clustering, MBC, a method that groups tasks based on the similarity
of their adapter parameters, indirectly optimizing for transfer across the
multi-task dataset. To re-use the library, we present a novel zero-shot routing
mechanism, Arrow, which enables dynamic selection of the most relevant adapters
for new inputs without the need for retraining. We experiment with several
LLMs, such as Phi-2 and Mistral, on a wide array of held-out tasks, verifying
that MBC-based adapters and Arrow routing lead to superior generalization to
new tasks. We make steps towards creating modular, adaptable LLMs that can
match or outperform traditional joint training.