DR-LoRA: 전문가 혼합 모델 적응을 위한 동적 순위 LoRA
DR-LoRA: Dynamic Rank LoRA for Mixture-of-Experts Adaptation
January 8, 2026
저자: Guanzhi Deng, Bo Li, Ronghao Chen, Huacan Wang, Linqi Song, Lijie Wen
cs.AI
초록
전문가 혼합(Mixture-of-Experts, MoE)은 대규모 언어 모델(Large Language Models, LLMs)의 규모 확장을 위한 중요한 패러다임으로 자리 잡았습니다. LoRA와 같은 매개변수 효율적 미세 조정(Parameter-efficient fine-tuning, PEFT)은 사전 학습된 MoE LLMs을 하위 작업에 적응시키기 위해 널리 채택되고 있습니다. 그러나 기존 접근법은 모든 전문가에게 동일한 LoRA 계층(Rank)을 할당하여 MoE LLMs 내재적 기능 특수화를 간과합니다. 이러한 균일한 할당은 자원 불일치를 초래하여, 작업과 관련성 높은 전문가는 자원이 부족한 반면 관련성 낮은 전문가는 중복된 매개변수를 할당받게 됩니다. 본 논문에서는 작업별 요구에 따라 미세 조정 중 전문가 LoRA 계층을 동적으로 증가시키는 DR-LoRA(Dynamic Rank LoRA) 프레임워크를 제안합니다. DR-LoRA는 전문가 라우팅 빈도와 LoRA 계층 중요도를 통합하여 각 전문가의 추가 용량 수요를 정량화하는 전문가 중요도 평가(Expert Saliency Scoring) 메커니즘을 사용합니다. 높은 중요도 점수를 가진 전문가는 계층 확장에 우선순위를 부여받아, 목표 작업에 맞춰 이질적 계층 분포가 자동으로 형성됩니다. 다중 벤치마크 실험 결과, DR-LoRA는 동일한 매개변수 예산 하에서 표준 LoRA 및 정적 할당 전략을 일관되게 능가하며, 더 효율적인 매개변수 활용으로 우수한 작업 성능을 달성함을 입증했습니다.
English
Mixture-of-Experts (MoE) has become a prominent paradigm for scaling Large Language Models (LLMs). Parameter-efficient fine-tuning (PEFT), such as LoRA, is widely adopted to adapt pretrained MoE LLMs to downstream tasks. However, existing approaches assign identical LoRA ranks to all experts, overlooking the intrinsic functional specialization within MoE LLMs. This uniform allocation leads to resource mismatch, task-relevant experts are under-provisioned while less relevant ones receive redundant parameters. We propose a Dynamic Rank LoRA framework named DR-LoRA, which dynamically grows expert LoRA ranks during fine-tuning based on task-specific demands. DR-LoRA employs an Expert Saliency Scoring mechanism that integrates expert routing frequency and LoRA rank importance to quantify each expert's demand for additional capacity. Experts with higher saliency scores are prioritized for rank expansion, enabling the automatic formation of a heterogeneous rank distribution tailored to the target task. Experiments on multiple benchmarks demonstrate that DR-LoRA consistently outperforms standard LoRA and static allocation strategies under the same parameter budget, achieving superior task performance with more efficient parameter utilization.