ChatPaper.aiChatPaper

Gemisch von Unterräumen in der Anpassung an niedrigrangige Modelle

Mixture-of-Subspaces in Low-Rank Adaptation

June 16, 2024
Autoren: Taiqiang Wu, Jiahao Wang, Zhe Zhao, Ngai Wong
cs.AI

Zusammenfassung

In diesem Paper stellen wir eine von Unterräumen inspirierte Methode zur Anpassung von niedriger Rangordnung (Low-Rank Adaptation, LoRA) vor, die rechnerisch effizient, einfach umzusetzen und leicht auf große Sprach-, multimodale und Diffusionsmodelle anwendbar ist. Zunächst zerlegen wir die Gewichte von LoRA äquivalent in zwei Unterräume und stellen fest, dass eine einfache Vermischung von ihnen die Leistung verbessern kann. Um ein solches Phänomen zu untersuchen, betrachten wir es durch eine fein abgestufte Unterraumlinse und zeigen, dass eine solche Modifikation äquivalent dazu ist, einen festen Mischer zur Verschmelzung der Unterräume zu verwenden. Um flexibler zu sein, lernen wir den Mischer gemeinsam mit den ursprünglichen LoRA-Gewichten und bezeichnen die Methode als Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA übertrifft konsequent LoRA in Aufgaben in verschiedenen Modalitäten, einschließlich Common-Sense-Argumentation, visueller Anleitungseinstellung und subjektgesteuerter Text-zu-Bild-Erzeugung, was seine Wirksamkeit und Robustheit zeigt. Der Code ist verfügbar unter https://github.com/wutaiqiang/MoSLoRA.
English
In this paper, we introduce a subspace-inspired Low-Rank Adaptation (LoRA) method, which is computationally efficient, easy to implement, and readily applicable to large language, multimodal, and diffusion models. Initially, we equivalently decompose the weights of LoRA into two subspaces, and find that simply mixing them can enhance performance. To study such a phenomenon, we revisit it through a fine-grained subspace lens, showing that such modification is equivalent to employing a fixed mixer to fuse the subspaces. To be more flexible, we jointly learn the mixer with the original LoRA weights, and term the method Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA consistently outperforms LoRA on tasks in different modalities, including commonsense reasoning, visual instruction tuning, and subject-driven text-to-image generation, demonstrating its effectiveness and robustness. Codes are available at https://github.com/wutaiqiang/MoSLoRA{github}.

Summary

AI-Generated Summary

PDF31December 4, 2024