저순위 적응 기법의 부분공간 혼합 모델
Mixture-of-Subspaces in Low-Rank Adaptation
June 16, 2024
저자: Taiqiang Wu, Jiahao Wang, Zhe Zhao, Ngai Wong
cs.AI
초록
본 논문에서는 계산 효율적이며 구현이 간단하고, 대규모 언어 모델, 멀티모달 모델, 확산 모델에 쉽게 적용할 수 있는 부분공간 기반의 Low-Rank Adaptation (LoRA) 방법을 소개합니다. 초기에 우리는 LoRA의 가중치를 두 개의 부분공간으로 동등하게 분해하였고, 이를 단순히 혼합하는 것만으로도 성능이 향상될 수 있음을 발견했습니다. 이러한 현상을 연구하기 위해, 우리는 세밀한 부분공간 관점에서 이를 재검토하였고, 이러한 수정이 부분공간을 융합하기 위해 고정된 믹서를 사용하는 것과 동일함을 보였습니다. 더 유연하게 하기 위해, 우리는 믹서를 원래의 LoRA 가중치와 함께 학습하였고, 이를 Mixture-of-Subspaces LoRA (MoSLoRA)라고 명명했습니다. MoSLoRA는 상식 추론, 시각적 명령어 튜닝, 주제 기반 텍스트-이미지 생성 등 다양한 모달리티의 작업에서 LoRA를 지속적으로 능가하며, 그 효과성과 견고성을 입증했습니다. 코드는 https://github.com/wutaiqiang/MoSLoRA{github}에서 확인할 수 있습니다.
English
In this paper, we introduce a subspace-inspired Low-Rank Adaptation (LoRA)
method, which is computationally efficient, easy to implement, and readily
applicable to large language, multimodal, and diffusion models. Initially, we
equivalently decompose the weights of LoRA into two subspaces, and find that
simply mixing them can enhance performance. To study such a phenomenon, we
revisit it through a fine-grained subspace lens, showing that such modification
is equivalent to employing a fixed mixer to fuse the subspaces. To be more
flexible, we jointly learn the mixer with the original LoRA weights, and term
the method Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA consistently
outperforms LoRA on tasks in different modalities, including commonsense
reasoning, visual instruction tuning, and subject-driven text-to-image
generation, demonstrating its effectiveness and robustness. Codes are available
at https://github.com/wutaiqiang/MoSLoRA{github}.Summary
AI-Generated Summary