DR-LoRA: LoRA de Rank Dinâmico para Adaptação em Mistura de Especialistas

Resumo

O Mixture-of-Experts (MoE) tornou-se um paradigma proeminente para a escalagem de Large Language Models (LLMs). O *fine-tuning* eficiente em parâmetros (PEFT), como o LoRA, é amplamente adotado para adaptar LLMs MoE pré-treinados a tarefas específicas. No entanto, as abordagens existentes atribuem *ranks* idênticos de LoRA a todos os *experts*, ignorando a especialização funcional intrínseca nos LLMs MoE. Esta alocação uniforme resulta em um descompasso de recursos: *experts* relevantes para a tarefa ficam subdimensionados, enquanto os menos relevantes recebem parâmetros redundantes. Propomos uma estrutura LoRA de *Rank* Dinâmico, denominada DR-LoRA, que aumenta dinamicamente os *ranks* do LoRA dos *experts* durante o *fine-tuning* com base nas demandas específicas da tarefa. O DR-LoRA emprega um mecanismo de Pontuação de Salência do *Expert* que integra a frequência de roteamento do *expert* e a importância do *rank* do LoRA para quantificar a demanda de cada *expert* por capacidade adicional. *Experts* com pontuações de salência mais altas são priorizados para expansão de *rank*, permitindo a formação automática de uma distribuição heterogênea de *ranks* personalizada para a tarefa-alvo. Experimentos em vários *benchmarks* demonstram que o DR-LoRA supera consistentemente o LoRA padrão e as estratégias de alocação estática sob o mesmo orçamento de parâmetros, alcançando desempenho superior na tarefa com uma utilização de parâmetros mais eficiente.

English

Mixture-of-Experts (MoE) has become a prominent paradigm for scaling Large Language Models (LLMs). Parameter-efficient fine-tuning (PEFT), such as LoRA, is widely adopted to adapt pretrained MoE LLMs to downstream tasks. However, existing approaches assign identical LoRA ranks to all experts, overlooking the intrinsic functional specialization within MoE LLMs. This uniform allocation leads to resource mismatch, task-relevant experts are under-provisioned while less relevant ones receive redundant parameters. We propose a Dynamic Rank LoRA framework named DR-LoRA, which dynamically grows expert LoRA ranks during fine-tuning based on task-specific demands. DR-LoRA employs an Expert Saliency Scoring mechanism that integrates expert routing frequency and LoRA rank importance to quantify each expert's demand for additional capacity. Experts with higher saliency scores are prioritized for rank expansion, enabling the automatic formation of a heterogeneous rank distribution tailored to the target task. Experiments on multiple benchmarks demonstrate that DR-LoRA consistently outperforms standard LoRA and static allocation strategies under the same parameter budget, achieving superior task performance with more efficient parameter utilization.

DR-LoRA: LoRA de Rank Dinâmico para Adaptação em Mistura de Especialistas

DR-LoRA: Dynamic Rank LoRA for Mixture-of-Experts Adaptation

Resumo

Support