MoA: Гетерогенная смесь адаптеров для параметрически эффективной тонкой настройки крупных языковых моделей
MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models
June 6, 2025
Авторы: Jie Cao, Tianwei Lin, Hongyang He, Rolan Yan, Wenqiao Zhang, Juncheng Li, Dongping Zhang, Siliang Tang, Yueting Zhuang
cs.AI
Аннотация
Последние исследования интегрируют метод Low-Rank Adaptation (LoRA) и подход Mixture-of-Experts (MoE) для дальнейшего повышения эффективности методов параметрически-эффективной тонкой настройки (PEFT) в приложениях с использованием крупных языковых моделей (LLM). Существующие методы используют однородные архитектуры MoE-LoRA, состоящие из экспертов LoRA с аналогичными или идентичными структурами и возможностями. Однако такие подходы часто сталкиваются с проблемами коллапса представлений и дисбаланса нагрузки между экспертами, что негативно сказывается на потенциале LLM. Для решения этих проблем мы предлагаем гетерогенный подход Mixture-of-Adapters (MoA). Этот метод динамически интегрирует экспертов адаптеров PEFT с разнообразными структурами, используя их дополнительные репрезентативные возможности для стимулирования специализации экспертов, тем самым улучшая эффективный перенос предварительно обученных знаний на задачи последующего применения. MoA поддерживает два варианта: (i) Soft MoA достигает детализированной интеграции путем взвешенного объединения выходов всех экспертов; (ii) Sparse MoA активирует адаптеры экспертов разреженно в зависимости от их вклада, достигая этого с минимальным снижением производительности. Экспериментальные результаты показывают, что гетерогенный MoA превосходит однородные методы MoE-LoRA как по производительности, так и по параметрической эффективности. Наш проект доступен по адресу https://github.com/DCDmllm/MoA.
English
Recent studies integrate Low-Rank Adaptation (LoRA) and Mixture-of-Experts
(MoE) to further enhance the performance of parameter-efficient fine-tuning
(PEFT) methods in Large Language Model (LLM) applications. Existing methods
employ homogeneous MoE-LoRA architectures composed of LoRA experts with
either similar or identical structures and capacities. However, these
approaches often suffer from representation collapse and expert load imbalance,
which negatively impact the potential of LLMs. To address these challenges, we
propose a heterogeneous Mixture-of-Adapters (MoA) approach.
This method dynamically integrates PEFT adapter experts with diverse
structures, leveraging their complementary representational capabilities to
foster expert specialization, thereby enhancing the effective transfer of
pre-trained knowledge to downstream tasks. MoA supports two variants:
(i) Soft MoA achieves fine-grained integration by performing
a weighted fusion of all expert outputs; (ii) Sparse MoA
activates adapter experts sparsely based on their contribution, achieving this
with negligible performance degradation. Experimental results demonstrate that
heterogeneous MoA outperforms homogeneous MoE-LoRA methods in both performance
and parameter efficiency. Our project is available at
https://github.com/DCDmllm/MoA.