MoA: Mezcla Heterogénea de Adaptadores para el Ajuste Fino Eficiente en Parámetros de Modelos de Lenguaje a Gran Escala

Resumen

Estudios recientes integran la Adaptación de Bajo Rango (LoRA) y la Mezcla de Expertos (MoE) para mejorar aún más el rendimiento de los métodos de ajuste fino eficiente en parámetros (PEFT) en aplicaciones de Modelos de Lenguaje de Gran Escala (LLM). Los métodos existentes emplean arquitecturas MoE-LoRA homogéneas compuestas por expertos LoRA con estructuras y capacidades similares o idénticas. Sin embargo, estos enfoques suelen sufrir de colapso de representación y desequilibrio en la carga de expertos, lo que impacta negativamente el potencial de los LLM. Para abordar estos desafíos, proponemos un enfoque heterogéneo de Mezcla de Adaptadores (MoA). Este método integra dinámicamente expertos adaptadores PEFT con estructuras diversas, aprovechando sus capacidades representativas complementarias para fomentar la especialización de expertos, mejorando así la transferencia efectiva de conocimiento preentrenado a tareas posteriores. MoA admite dos variantes: (i) Soft MoA logra una integración de grano fino mediante una fusión ponderada de todas las salidas de los expertos; (ii) Sparse MoA activa los adaptadores expertos de manera dispersa según su contribución, logrando esto con una degradación de rendimiento insignificante. Los resultados experimentales demuestran que MoA heterogéneo supera a los métodos MoE-LoRA homogéneos tanto en rendimiento como en eficiencia de parámetros. Nuestro proyecto está disponible en https://github.com/DCDmllm/MoA.

English

Recent studies integrate Low-Rank Adaptation (LoRA) and Mixture-of-Experts (MoE) to further enhance the performance of parameter-efficient fine-tuning (PEFT) methods in Large Language Model (LLM) applications. Existing methods employ homogeneous MoE-LoRA architectures composed of LoRA experts with either similar or identical structures and capacities. However, these approaches often suffer from representation collapse and expert load imbalance, which negatively impact the potential of LLMs. To address these challenges, we propose a heterogeneous Mixture-of-Adapters (MoA) approach. This method dynamically integrates PEFT adapter experts with diverse structures, leveraging their complementary representational capabilities to foster expert specialization, thereby enhancing the effective transfer of pre-trained knowledge to downstream tasks. MoA supports two variants: (i) Soft MoA achieves fine-grained integration by performing a weighted fusion of all expert outputs; (ii) Sparse MoA activates adapter experts sparsely based on their contribution, achieving this with negligible performance degradation. Experimental results demonstrate that heterogeneous MoA outperforms homogeneous MoE-LoRA methods in both performance and parameter efficiency. Our project is available at https://github.com/DCDmllm/MoA.

MoA: Mezcla Heterogénea de Adaptadores para el Ajuste Fino Eficiente en Parámetros de Modelos de Lenguaje a Gran Escala

MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models

Resumen

Support