MultiLoRA: LoRA democratiseren voor betere multi-task learning
MultiLoRA: Democratizing LoRA for Better Multi-Task Learning
November 20, 2023
Auteurs: Yiming Wang, Yu Lin, Xiaodong Zeng, Guannan Zhang
cs.AI
Samenvatting
LoRA bereikt opmerkelijke resource-efficiëntie en vergelijkbare prestaties bij het aanpassen van LLM's voor specifieke taken. Sinds ChatGPT superieure prestaties heeft laten zien op diverse taken, is er een groeiende behoefte ontstaan om één model voor alle taken aan te passen. Echter beperkt de expliciete lage rang van LoRA de aanpassingsprestaties in complexe multi-task scenario's. LoRA wordt gedomineerd door een klein aantal top singuliere vectoren, terwijl fine-tuning uiteenvalt in een reeks minder belangrijke unitaire transformaties. In dit artikel stellen we MultiLoRA voor voor betere multi-task aanpassing door de dominantie van top singuliere vectoren die in LoRA worden waargenomen te verminderen. MultiLoRA schaalt LoRA-modules horizontaal en verandert de parameterinitialisatie van aanpassingsmatrices om parameterafhankelijkheid te verminderen, wat resulteert in meer gebalanceerde unitaire deelruimtes. We construeren op ongekende wijze gespecialiseerde trainingsdata door datasets van instructieopvolging, natuurlijke taalbegrip en wereldkennis te mengen, om semantisch en syntactisch verschillende samples te dekken. Met slechts 2,5% extra parameters presteert MultiLoRA beter dan enkele LoRA-tegenhangers en fine-tuning op meerdere benchmarks en modelschalen. Verder onderzoek naar de gewichtsupdate-matrices van MultiLoRA toont een verminderde afhankelijkheid van top singuliere vectoren en meer democratische bijdragen van unitaire transformaties.
English
LoRA achieves remarkable resource efficiency and comparable performance when
adapting LLMs for specific tasks. Since ChatGPT demonstrated superior
performance on various tasks, there has been a growing desire to adapt one
model for all tasks. However, the explicit low-rank of LoRA limits the
adaptation performance in complex multi-task scenarios. LoRA is dominated by a
small number of top singular vectors while fine-tuning decomposes into a set of
less important unitary transforms. In this paper, we propose MultiLoRA for
better multi-task adaptation by reducing the dominance of top singular vectors
observed in LoRA. MultiLoRA scales LoRA modules horizontally and change
parameter initialization of adaptation matrices to reduce parameter dependency,
thus yields more balanced unitary subspaces. We unprecedentedly construct
specialized training data by mixing datasets of instruction follow, natural
language understanding, world knowledge, to cover semantically and
syntactically different samples. With only 2.5% of additional parameters,
MultiLoRA outperforms single LoRA counterparts and fine-tuning on multiple
benchmarks and model scales. Further investigation into weight update matrices
of MultiLoRA exhibits reduced dependency on top singular vectors and more
democratic unitary transform contributions.