DR-LoRA: LoRA a Rango Dinamico per l'Adattamento a Mistura di Esperti

Abstract

Il Mixture-of-Experts (MoE) è diventato un paradigma di rilievo per il ridimensionamento dei Large Language Model (LLM). Il Parameter-efficient Fine-Tuning (PEFT), come LoRA, è ampiamente adottato per adattare i LLM MoE pre-addestrati a compiti specifici. Tuttavia, gli approcci esistenti assegnano ranghi LoRA identici a tutti gli esperti, trascurando la specializzazione funzionale intrinseca all'interno dei LLM MoE. Questa allocazione uniforme porta a uno squilibrio di risorse: gli esperti rilevanti per il compito ricevono capacità insufficienti, mentre quelli meno rilevanti ottengono parametri ridondanti. Proponiamo un framework LoRA a Rango Dinamico, denominato DR-LoRA, che incrementa dinamicamente i ranghi LoRA degli esperti durante il fine-tuning in base alle richieste specifiche del compito. DR-LoRA impiega un meccanismo di Punteggio della Salienza degli Esperti che integra la frequenza di instradamento degli esperti e l'importanza del rango LoRA per quantificare la domanda di capacità aggiuntiva di ciascun esperto. Agli esperti con punteggi di salienza più elevati viene data priorità per l'espansione del rango, consentendo la formazione automatica di una distribuzione eterogenea dei ranghi ottimizzata per il compito target. Esperimenti su molteplici benchmark dimostrano che DR-LoRA supera costantemente il LoRA standard e le strategie di allocazione statica a parità di budget parametrico, raggiungendo prestazioni superiori nel compito con un utilizzo dei parametri più efficiente.

English

Mixture-of-Experts (MoE) has become a prominent paradigm for scaling Large Language Models (LLMs). Parameter-efficient fine-tuning (PEFT), such as LoRA, is widely adopted to adapt pretrained MoE LLMs to downstream tasks. However, existing approaches assign identical LoRA ranks to all experts, overlooking the intrinsic functional specialization within MoE LLMs. This uniform allocation leads to resource mismatch, task-relevant experts are under-provisioned while less relevant ones receive redundant parameters. We propose a Dynamic Rank LoRA framework named DR-LoRA, which dynamically grows expert LoRA ranks during fine-tuning based on task-specific demands. DR-LoRA employs an Expert Saliency Scoring mechanism that integrates expert routing frequency and LoRA rank importance to quantify each expert's demand for additional capacity. Experts with higher saliency scores are prioritized for rank expansion, enabling the automatic formation of a heterogeneous rank distribution tailored to the target task. Experiments on multiple benchmarks demonstrate that DR-LoRA consistently outperforms standard LoRA and static allocation strategies under the same parameter budget, achieving superior task performance with more efficient parameter utilization.

DR-LoRA: LoRA a Rango Dinamico per l'Adattamento a Mistura di Esperti

DR-LoRA: Dynamic Rank LoRA for Mixture-of-Experts Adaptation

Abstract

Support