ChatPaper.aiChatPaper

ReMix : Routage par renforcement pour les mélanges de LoRA dans le finetuning des grands modèles de langage

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

March 10, 2026
Auteurs: Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong
cs.AI

Résumé

Les adaptateurs à faible rang (LoRAs) constituent une technique de réglage fin efficace en paramètres qui injecte des matrices de faible rang entraînables dans des modèles préentraînés pour les adapter à de nouvelles tâches. Les modèles à mélange de LoRAs (Mixture-of-LoRAs) étendent les réseaux de neurones de manière efficace en acheminant chaque entrée de couche vers un petit sous-ensemble de LoRAs spécialisés de la couche. Les routeurs Mixture-of-LoRAs existants attribuent un poids d'acheminement appris à chaque LoRA pour permettre un entraînement de bout en bout du routeur. Malgré leurs résultats empiriques prometteurs, nous observons qu'en pratique, les poids d'acheminement sont typiquement extrêmement déséquilibrés entre les LoRAs, un ou deux LoRAs dominant souvent les poids d'acheminement. Ceci limite essentiellement le nombre de LoRAs effectifs et entrave ainsi sévèrement la puissance expressive des modèles Mixture-of-LoRAs existants. Dans ce travail, nous attribuons cette faiblesse à la nature des poids d'acheminement apprenables et repensons la conception fondamentale du routeur. Pour résoudre ce problème critique, nous proposons une nouvelle conception de routeur que nous appelons Renforcement de l'Acheminement pour Mélange de LoRAs (ReMix). Notre idée clé est d'utiliser des poids d'acheminement non apprenables pour garantir que tous les LoRAs actifs soient également efficaces, sans qu'aucun LoRA ne domine les poids d'acheminement. Cependant, nos routeurs ne peuvent pas être entraînés directement par descente de gradient en raison de nos poids d'acheminement non apprenables. Par conséquent, nous proposons en outre un estimateur de gradient non biaisé pour le routeur en employant la technique de renforcement leave-one-out (RLOO), où nous considérons la perte de supervision comme la récompense et le routeur comme la politique en apprentissage par renforcement. Notre estimateur de gradient permet également de mettre à l'échelle la puissance de calcul d'entraînement pour améliorer les performances prédictives de notre ReMix. Des expériences approfondies démontrent que notre ReMix proposé surpasse significativement les méthodes état de l'art de réglage fin efficace en paramètres avec un nombre comparable de paramètres activés.
English
Low-rank adapters (LoRAs) are a parameter-efficient finetuning technique that injects trainable low-rank matrices into pretrained models to adapt them to new tasks. Mixture-of-LoRAs models expand neural networks efficiently by routing each layer input to a small subset of specialized LoRAs of the layer. Existing Mixture-of-LoRAs routers assign a learned routing weight to each LoRA to enable end-to-end training of the router. Despite their empirical promise, we observe that the routing weights are typically extremely imbalanced across LoRAs in practice, where only one or two LoRAs often dominate the routing weights. This essentially limits the number of effective LoRAs and thus severely hinders the expressive power of existing Mixture-of-LoRAs models. In this work, we attribute this weakness to the nature of learnable routing weights and rethink the fundamental design of the router. To address this critical issue, we propose a new router designed that we call Reinforcement Routing for Mixture-of-LoRAs (ReMix). Our key idea is using non-learnable routing weights to ensure all active LoRAs to be equally effective, with no LoRA dominating the routing weights. However, our routers cannot be trained directly via gradient descent due to our non-learnable routing weights. Hence, we further propose an unbiased gradient estimator for the router by employing the reinforce leave-one-out (RLOO) technique, where we regard the supervision loss as the reward and the router as the policy in reinforcement learning. Our gradient estimator also enables to scale up training compute to boost the predictive performance of our ReMix. Extensive experiments demonstrate that our proposed ReMix significantly outperform state-of-the-art parameter-efficient finetuning methods under a comparable number of activated parameters.
PDF193March 13, 2026