ReMix: Routing a rinforzo per miscele di LoRA nel fine-tuning di LLM
ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning
March 10, 2026
Autori: Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong
cs.AI
Abstract
Gli adattatori a basso rango (LoRA) sono una tecnica di fine-tuning efficiente in termini di parametri che inietta matrici a basso rango addestrabili in modelli pre-addestrati per adattarli a nuovi compiti. I modelli Mistura-di-LoRA (Mixture-of-LoRAs) espandono le reti neurali in modo efficiente instradando l'input di ogni layer a un piccolo sottoinsieme di LoRA specializzati del layer. I router Mistura-di-LoRA esistenti assegnano un peso di instradamento appreso a ciascun LoRA per consentire l'addestramento end-to-end del router. Nonostante le promesse empiriche, osserviamo che in pratica i pesi di instradamento sono tipicamente estremamente sbilanciati tra i LoRA, dove spesso solo uno o due LoRA dominano i pesi di instradamento. Ciò limita essenzialmente il numero di LoRA effettivi e quindi ostacola gravemente il potere espressivo dei modelli Mistura-di-LoRA esistenti. In questo lavoro, attribuiamo questa debolezza alla natura dei pesi di instradamento apprendibili e ripensiamo la progettazione fondamentale del router. Per affrontare questo problema critico, proponiamo un nuovo progetto di router che chiamiamo Instradamento a Rinforzo per Mistura-di-LoRA (ReMix). La nostra idea chiave è utilizzare pesi di instradamento non apprendibili per garantire che tutti i LoRA attivi siano ugualmente efficaci, senza che nessun LoRA domini i pesi di instradamento. Tuttavia, i nostri router non possono essere addestrati direttamente tramite discesa del gradiente a causa dei nostri pesi di instradamento non apprendibili. Quindi, proponiamo ulteriormente uno stimatore del gradiente non distorto per il router impiegando la tecnica del rinforzo leave-one-out (RLOO), in cui consideriamo la loss di supervisione come ricompensa e il router come politica nell'apprendimento per rinforzo. Il nostro stimatore del gradiente consente anche di aumentare la potenza di calcolo per l'addestramento per migliorare le prestazioni predittive del nostro ReMix. Esperimenti estensivi dimostrano che il nostro ReMix proposto supera significativamente i metodi di fine-tuning efficienti allo stato dell'arte con un numero comparabile di parametri attivati.
English
Low-rank adapters (LoRAs) are a parameter-efficient finetuning technique that injects trainable low-rank matrices into pretrained models to adapt them to new tasks. Mixture-of-LoRAs models expand neural networks efficiently by routing each layer input to a small subset of specialized LoRAs of the layer. Existing Mixture-of-LoRAs routers assign a learned routing weight to each LoRA to enable end-to-end training of the router. Despite their empirical promise, we observe that the routing weights are typically extremely imbalanced across LoRAs in practice, where only one or two LoRAs often dominate the routing weights. This essentially limits the number of effective LoRAs and thus severely hinders the expressive power of existing Mixture-of-LoRAs models. In this work, we attribute this weakness to the nature of learnable routing weights and rethink the fundamental design of the router. To address this critical issue, we propose a new router designed that we call Reinforcement Routing for Mixture-of-LoRAs (ReMix). Our key idea is using non-learnable routing weights to ensure all active LoRAs to be equally effective, with no LoRA dominating the routing weights. However, our routers cannot be trained directly via gradient descent due to our non-learnable routing weights. Hence, we further propose an unbiased gradient estimator for the router by employing the reinforce leave-one-out (RLOO) technique, where we regard the supervision loss as the reward and the router as the policy in reinforcement learning. Our gradient estimator also enables to scale up training compute to boost the predictive performance of our ReMix. Extensive experiments demonstrate that our proposed ReMix significantly outperform state-of-the-art parameter-efficient finetuning methods under a comparable number of activated parameters.