ChatPaper.aiChatPaper

Смесь подпространств в адаптации низкого ранга

Mixture-of-Subspaces in Low-Rank Adaptation

June 16, 2024
Авторы: Taiqiang Wu, Jiahao Wang, Zhe Zhao, Ngai Wong
cs.AI

Аннотация

В данной статье мы представляем метод Low-Rank Adaptation (LoRA), вдохновленный подпространством, который является вычислительно эффективным, легким в реализации и готовым к применению в больших языковых, мультимодальных и диффузионных моделях. Изначально мы эквивалентно декомпозируем веса LoRA на два подпространства и обнаруживаем, что простое их смешивание может улучшить производительность. Для изучения такого явления мы пересматриваем его через призму тонкой настройки подпространства, показывая, что такая модификация эквивалентна использованию фиксированного микшера для слияния подпространств. Для большей гибкости мы совместно обучаем микшер с исходными весами LoRA и называем этот метод Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA последовательно превосходит LoRA на задачах различных модальностей, включая рассуждения на здравый смысл, настройку визуальных инструкций и генерацию текста в изображение по запросу, демонстрируя его эффективность и устойчивость. Код доступен на https://github.com/wutaiqiang/MoSLoRA.
English
In this paper, we introduce a subspace-inspired Low-Rank Adaptation (LoRA) method, which is computationally efficient, easy to implement, and readily applicable to large language, multimodal, and diffusion models. Initially, we equivalently decompose the weights of LoRA into two subspaces, and find that simply mixing them can enhance performance. To study such a phenomenon, we revisit it through a fine-grained subspace lens, showing that such modification is equivalent to employing a fixed mixer to fuse the subspaces. To be more flexible, we jointly learn the mixer with the original LoRA weights, and term the method Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA consistently outperforms LoRA on tasks in different modalities, including commonsense reasoning, visual instruction tuning, and subject-driven text-to-image generation, demonstrating its effectiveness and robustness. Codes are available at https://github.com/wutaiqiang/MoSLoRA{github}.

Summary

AI-Generated Summary

PDF31December 4, 2024