ChatPaper.aiChatPaper

Miscela di Sottospazi nell'Adattamento a Basso Rango

Mixture-of-Subspaces in Low-Rank Adaptation

June 16, 2024
Autori: Taiqiang Wu, Jiahao Wang, Zhe Zhao, Ngai Wong
cs.AI

Abstract

In questo articolo, presentiamo un metodo di Adattamento a Basso Rango (LoRA) ispirato ai sottospazi, che è computazionalmente efficiente, facile da implementare e immediatamente applicabile a modelli linguistici di grandi dimensioni, multimodali e di diffusione. Inizialmente, scomponiamo in modo equivalente i pesi di LoRA in due sottospazi e scopriamo che semplicemente mescolarli può migliorare le prestazioni. Per studiare tale fenomeno, lo esaminiamo attraverso una lente fine dei sottospazi, dimostrando che tale modifica equivale all'utilizzo di un mixer fisso per fondere i sottospazi. Per essere più flessibili, apprendiamo congiuntamente il mixer con i pesi originali di LoRA e denominiamo il metodo Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA supera costantemente LoRA in compiti di diverse modalità, tra cui il ragionamento di senso comune, il tuning delle istruzioni visive e la generazione di immagini da testo guidata da soggetti, dimostrando la sua efficacia e robustezza. I codici sono disponibili su https://github.com/wutaiqiang/MoSLoRA{github}.
English
In this paper, we introduce a subspace-inspired Low-Rank Adaptation (LoRA) method, which is computationally efficient, easy to implement, and readily applicable to large language, multimodal, and diffusion models. Initially, we equivalently decompose the weights of LoRA into two subspaces, and find that simply mixing them can enhance performance. To study such a phenomenon, we revisit it through a fine-grained subspace lens, showing that such modification is equivalent to employing a fixed mixer to fuse the subspaces. To be more flexible, we jointly learn the mixer with the original LoRA weights, and term the method Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA consistently outperforms LoRA on tasks in different modalities, including commonsense reasoning, visual instruction tuning, and subject-driven text-to-image generation, demonstrating its effectiveness and robustness. Codes are available at https://github.com/wutaiqiang/MoSLoRA{github}.
PDF31February 7, 2026