MultiLoRA: Democratizzazione di LoRA per un Miglior Apprendimento Multi-Task

Abstract

LoRA raggiunge un'efficienza delle risorse notevole e prestazioni comparabili quando si adattano i LLM per compiti specifici. Da quando ChatGPT ha dimostrato prestazioni superiori in vari compiti, è cresciuto il desiderio di adattare un unico modello per tutti i compiti. Tuttavia, il basso rango esplicito di LoRA limita le prestazioni di adattamento in scenari complessi multi-task. LoRA è dominato da un numero ridotto di vettori singolari principali, mentre il fine-tuning si scompone in una serie di trasformazioni unitarie meno importanti. In questo articolo, proponiamo MultiLoRA per un migliore adattamento multi-task riducendo la dominanza dei vettori singolari principali osservata in LoRA. MultiLoRA scala i moduli LoRA orizzontalmente e modifica l'inizializzazione dei parametri delle matrici di adattamento per ridurre la dipendenza dai parametri, ottenendo così sottospazi unitari più bilanciati. Costruiamo senza precedenti dati di addestramento specializzati mescolando dataset di follow-up di istruzioni, comprensione del linguaggio naturale e conoscenza del mondo, per coprire campioni semanticamente e sintatticamente diversi. Con solo il 2,5% di parametri aggiuntivi, MultiLoRA supera le controparti di LoRA singolo e il fine-tuning su più benchmark e scale di modelli. Un'ulteriore indagine sulle matrici di aggiornamento dei pesi di MultiLoRA mostra una ridotta dipendenza dai vettori singolari principali e contributi più democratici delle trasformazioni unitarie.

English

LoRA achieves remarkable resource efficiency and comparable performance when adapting LLMs for specific tasks. Since ChatGPT demonstrated superior performance on various tasks, there has been a growing desire to adapt one model for all tasks. However, the explicit low-rank of LoRA limits the adaptation performance in complex multi-task scenarios. LoRA is dominated by a small number of top singular vectors while fine-tuning decomposes into a set of less important unitary transforms. In this paper, we propose MultiLoRA for better multi-task adaptation by reducing the dominance of top singular vectors observed in LoRA. MultiLoRA scales LoRA modules horizontally and change parameter initialization of adaptation matrices to reduce parameter dependency, thus yields more balanced unitary subspaces. We unprecedentedly construct specialized training data by mixing datasets of instruction follow, natural language understanding, world knowledge, to cover semantically and syntactically different samples. With only 2.5% of additional parameters, MultiLoRA outperforms single LoRA counterparts and fine-tuning on multiple benchmarks and model scales. Further investigation into weight update matrices of MultiLoRA exhibits reduced dependency on top singular vectors and more democratic unitary transform contributions.

MultiLoRA: Democratizzazione di LoRA per un Miglior Apprendimento Multi-Task

MultiLoRA: Democratizing LoRA for Better Multi-Task Learning

Abstract

Support