ChatPaper.aiChatPaper

MoA: 대규모 언어 모델의 매개변수 효율적 미세 조정을 위한 어댑터의 이질적 혼합

MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models

June 6, 2025
저자: Jie Cao, Tianwei Lin, Hongyang He, Rolan Yan, Wenqiao Zhang, Juncheng Li, Dongping Zhang, Siliang Tang, Yueting Zhuang
cs.AI

초록

최근 연구들은 대규모 언어 모델(LLM) 응용 분야에서 매개변수 효율적 미세 조정(PEFT) 방법의 성능을 더욱 향상시키기 위해 저순위 적응(LoRA)과 전문가 혼합(MoE)을 통합하고 있다. 기존 방법들은 유사하거나 동일한 구조와 용량을 가진 LoRA 전문가들로 구성된 동종 MoE-LoRA 아키텍처를 사용한다. 그러나 이러한 접근 방식은 표현 붕괴와 전문가 부하 불균형 문제를 자주 겪으며, 이는 LLM의 잠재력에 부정적인 영향을 미친다. 이러한 문제를 해결하기 위해, 우리는 이종 전문가 혼합(MoA) 접근 방식을 제안한다. 이 방법은 다양한 구조를 가진 PEFT 어댑터 전문가들을 동적으로 통합하여, 이들의 상호 보완적 표현 능력을 활용함으로써 전문가 특화를 촉진하고, 사전 학습된 지식을 다운스트림 작업으로 효과적으로 전이한다. MoA는 두 가지 변형을 지원한다: (i) 소프트 MoA는 모든 전문가 출력의 가중치 융합을 통해 세밀한 통합을 달성하고, (ii) 스파스 MoA는 전문가들의 기여도에 따라 어댑터 전문가를 희소하게 활성화하여 성능 저하를 최소화한다. 실험 결과는 이종 MoA가 동종 MoE-LoRA 방법들보다 성능과 매개변수 효율성 모두에서 우수함을 보여준다. 우리의 프로젝트는 https://github.com/DCDmllm/MoA에서 확인할 수 있다.
English
Recent studies integrate Low-Rank Adaptation (LoRA) and Mixture-of-Experts (MoE) to further enhance the performance of parameter-efficient fine-tuning (PEFT) methods in Large Language Model (LLM) applications. Existing methods employ homogeneous MoE-LoRA architectures composed of LoRA experts with either similar or identical structures and capacities. However, these approaches often suffer from representation collapse and expert load imbalance, which negatively impact the potential of LLMs. To address these challenges, we propose a heterogeneous Mixture-of-Adapters (MoA) approach. This method dynamically integrates PEFT adapter experts with diverse structures, leveraging their complementary representational capabilities to foster expert specialization, thereby enhancing the effective transfer of pre-trained knowledge to downstream tasks. MoA supports two variants: (i) Soft MoA achieves fine-grained integration by performing a weighted fusion of all expert outputs; (ii) Sparse MoA activates adapter experts sparsely based on their contribution, achieving this with negligible performance degradation. Experimental results demonstrate that heterogeneous MoA outperforms homogeneous MoE-LoRA methods in both performance and parameter efficiency. Our project is available at https://github.com/DCDmllm/MoA.
PDF42June 11, 2025