DR-LoRA: Dynamic Rank LoRA voor Mixture-of-Experts-adaptatie
DR-LoRA: Dynamic Rank LoRA for Mixture-of-Experts Adaptation
January 8, 2026
Auteurs: Guanzhi Deng, Bo Li, Ronghao Chen, Huacan Wang, Linqi Song, Lijie Wen
cs.AI
Samenvatting
Mixture-of-Experts (MoE) is een toonaangevend paradigma geworden voor het schalen van Large Language Models (LLM's). Parameter-efficiënte fine-tuning (PEFT), zoals LoRA, wordt veel gebruikt om vooraf getrainde MoE-LLM's aan te passen voor downstreamtaken. Bestaande benaderingen kennen echter identieke LoRA-rangen toe aan alle experts, waarbij de intrinsieke functionele specialisatie binnen MoE-LLM's over het hoofd wordt gezien. Deze uniforme toewijzing leidt tot een mismatch in middelen: taakrelevante experts krijgen onvoldoende capaciteit, terwijl minder relevante experts overbodige parameters ontvangen. Wij stellen een Dynamic Rank LoRA-raamwerk voor, genaamd DR-LoRA, dat tijdens de fine-tuning dynamisch de LoRA-rangen van experts verhoogt op basis van taakspecifieke behoeften. DR-LoRA gebruikt een Expert Saliency Scoring-mechanisme dat expert routeringsfrequentie en LoRA-rangbelang integreert om de vraag van elke expert naar extra capaciteit te kwantificeren. Experts met hogere saliency-scores krijgen prioriteit voor ranguitbreiding, waardoor de automatische vorming van een heterogene rangverdeling, afgestemd op de doeltaak, mogelijk wordt. Experimenten op meerdere benchmarks tonen aan dat DR-LoRA consequent superieur presteert ten opzichte van standaard LoRA en statische toewijzingsstrategieën onder hetzelfde parameterbudget, waarbij het superieure taakprestaties bereikt met efficiënter parametergebruik.
English
Mixture-of-Experts (MoE) has become a prominent paradigm for scaling Large Language Models (LLMs). Parameter-efficient fine-tuning (PEFT), such as LoRA, is widely adopted to adapt pretrained MoE LLMs to downstream tasks. However, existing approaches assign identical LoRA ranks to all experts, overlooking the intrinsic functional specialization within MoE LLMs. This uniform allocation leads to resource mismatch, task-relevant experts are under-provisioned while less relevant ones receive redundant parameters. We propose a Dynamic Rank LoRA framework named DR-LoRA, which dynamically grows expert LoRA ranks during fine-tuning based on task-specific demands. DR-LoRA employs an Expert Saliency Scoring mechanism that integrates expert routing frequency and LoRA rank importance to quantify each expert's demand for additional capacity. Experts with higher saliency scores are prioritized for rank expansion, enabling the automatic formation of a heterogeneous rank distribution tailored to the target task. Experiments on multiple benchmarks demonstrate that DR-LoRA consistently outperforms standard LoRA and static allocation strategies under the same parameter budget, achieving superior task performance with more efficient parameter utilization.