MoA: Mezcla Heterogénea de Adaptadores para el Ajuste Fino Eficiente en Parámetros de Modelos de Lenguaje a Gran Escala
MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models
June 6, 2025
Autores: Jie Cao, Tianwei Lin, Hongyang He, Rolan Yan, Wenqiao Zhang, Juncheng Li, Dongping Zhang, Siliang Tang, Yueting Zhuang
cs.AI
Resumen
Estudios recientes integran la Adaptación de Bajo Rango (LoRA) y la Mezcla de Expertos (MoE) para mejorar aún más el rendimiento de los métodos de ajuste fino eficiente en parámetros (PEFT) en aplicaciones de Modelos de Lenguaje de Gran Escala (LLM). Los métodos existentes emplean arquitecturas MoE-LoRA homogéneas compuestas por expertos LoRA con estructuras y capacidades similares o idénticas. Sin embargo, estos enfoques suelen sufrir de colapso de representación y desequilibrio en la carga de expertos, lo que impacta negativamente el potencial de los LLM. Para abordar estos desafíos, proponemos un enfoque heterogéneo de Mezcla de Adaptadores (MoA). Este método integra dinámicamente expertos adaptadores PEFT con estructuras diversas, aprovechando sus capacidades representativas complementarias para fomentar la especialización de expertos, mejorando así la transferencia efectiva de conocimiento preentrenado a tareas posteriores. MoA admite dos variantes: (i) Soft MoA logra una integración de grano fino mediante una fusión ponderada de todas las salidas de los expertos; (ii) Sparse MoA activa los adaptadores expertos de manera dispersa según su contribución, logrando esto con una degradación de rendimiento insignificante. Los resultados experimentales demuestran que MoA heterogéneo supera a los métodos MoE-LoRA homogéneos tanto en rendimiento como en eficiencia de parámetros. Nuestro proyecto está disponible en https://github.com/DCDmllm/MoA.
English
Recent studies integrate Low-Rank Adaptation (LoRA) and Mixture-of-Experts
(MoE) to further enhance the performance of parameter-efficient fine-tuning
(PEFT) methods in Large Language Model (LLM) applications. Existing methods
employ homogeneous MoE-LoRA architectures composed of LoRA experts with
either similar or identical structures and capacities. However, these
approaches often suffer from representation collapse and expert load imbalance,
which negatively impact the potential of LLMs. To address these challenges, we
propose a heterogeneous Mixture-of-Adapters (MoA) approach.
This method dynamically integrates PEFT adapter experts with diverse
structures, leveraging their complementary representational capabilities to
foster expert specialization, thereby enhancing the effective transfer of
pre-trained knowledge to downstream tasks. MoA supports two variants:
(i) Soft MoA achieves fine-grained integration by performing
a weighted fusion of all expert outputs; (ii) Sparse MoA
activates adapter experts sparsely based on their contribution, achieving this
with negligible performance degradation. Experimental results demonstrate that
heterogeneous MoA outperforms homogeneous MoE-LoRA methods in both performance
and parameter efficiency. Our project is available at
https://github.com/DCDmllm/MoA.