Mixture-of-Subspaces in Laag-Rang Aanpassing
Mixture-of-Subspaces in Low-Rank Adaptation
June 16, 2024
Auteurs: Taiqiang Wu, Jiahao Wang, Zhe Zhao, Ngai Wong
cs.AI
Samenvatting
In dit artikel introduceren we een op deelruimten geïnspireerde Low-Rank Adaptation (LoRA)-methode, die computationeel efficiënt, eenvoudig te implementeren en direct toepasbaar is op grote taal-, multimodale- en diffusiemodellen. Aanvankelijk decomponeren we de gewichten van LoRA equivalent in twee deelruimten, en ontdekken dat het simpelweg mengen ervan de prestaties kan verbeteren. Om dit fenomeen te bestuderen, bekijken we het opnieuw door een fijnmazige deelruimten-lens, waaruit blijkt dat een dergelijke aanpassing equivalent is aan het gebruik van een vaste mixer om de deelruimten te fuseren. Om flexibeler te zijn, leren we de mixer gezamenlijk met de oorspronkelijke LoRA-gewichten, en noemen we de methode Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA presteert consistent beter dan LoRA bij taken in verschillende modaliteiten, waaronder gezond verstand redeneren, visuele instructieafstemming en onderwerpgestuurde tekst-naar-beeldgeneratie, wat de effectiviteit en robuustheid ervan aantoont. Codes zijn beschikbaar op https://github.com/wutaiqiang/MoSLoRA{github}.
English
In this paper, we introduce a subspace-inspired Low-Rank Adaptation (LoRA)
method, which is computationally efficient, easy to implement, and readily
applicable to large language, multimodal, and diffusion models. Initially, we
equivalently decompose the weights of LoRA into two subspaces, and find that
simply mixing them can enhance performance. To study such a phenomenon, we
revisit it through a fine-grained subspace lens, showing that such modification
is equivalent to employing a fixed mixer to fuse the subspaces. To be more
flexible, we jointly learn the mixer with the original LoRA weights, and term
the method Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA consistently
outperforms LoRA on tasks in different modalities, including commonsense
reasoning, visual instruction tuning, and subject-driven text-to-image
generation, demonstrating its effectiveness and robustness. Codes are available
at https://github.com/wutaiqiang/MoSLoRA{github}.