ChatPaper.aiChatPaper

Mezcla de Subespacios en Adaptación de Bajo Rango

Mixture-of-Subspaces in Low-Rank Adaptation

June 16, 2024
Autores: Taiqiang Wu, Jiahao Wang, Zhe Zhao, Ngai Wong
cs.AI

Resumen

En este artículo, presentamos un método de Adaptación de Bajo Rango inspirado en subespacios (LoRA), que es computacionalmente eficiente, fácil de implementar y directamente aplicable a modelos de lenguaje a gran escala, multimodales y de difusión. Inicialmente, descomponemos de manera equivalente los pesos de LoRA en dos subespacios, y descubrimos que simplemente mezclarlos puede mejorar el rendimiento. Para estudiar este fenómeno, lo revisitamos a través de una lente de subespacios de grano fino, mostrando que dicha modificación es equivalente a emplear un mezclador fijo para fusionar los subespacios. Para ser más flexibles, aprendemos conjuntamente el mezclador con los pesos originales de LoRA, y denominamos al método Mezcla de Subespacios LoRA (MoSLoRA). MoSLoRA supera consistentemente a LoRA en tareas de diferentes modalidades, incluyendo razonamiento de sentido común, ajuste de instrucciones visuales y generación de texto a imagen impulsada por temas, demostrando su efectividad y robustez. Los códigos están disponibles en https://github.com/wutaiqiang/MoSLoRA{github}.
English
In this paper, we introduce a subspace-inspired Low-Rank Adaptation (LoRA) method, which is computationally efficient, easy to implement, and readily applicable to large language, multimodal, and diffusion models. Initially, we equivalently decompose the weights of LoRA into two subspaces, and find that simply mixing them can enhance performance. To study such a phenomenon, we revisit it through a fine-grained subspace lens, showing that such modification is equivalent to employing a fixed mixer to fuse the subspaces. To be more flexible, we jointly learn the mixer with the original LoRA weights, and term the method Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA consistently outperforms LoRA on tasks in different modalities, including commonsense reasoning, visual instruction tuning, and subject-driven text-to-image generation, demonstrating its effectiveness and robustness. Codes are available at https://github.com/wutaiqiang/MoSLoRA{github}.

Summary

AI-Generated Summary

PDF31December 4, 2024