ReMix: Маршрутизация с подкреплением для смесей LoRA при тонкой настройке больших языковых моделей
ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning
March 10, 2026
Авторы: Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong
cs.AI
Аннотация
Адаптеры низкого ранга (LoRA) — это метод эффективной по параметрам тонкой настройки, который внедряет обучаемые матрицы низкого ранга в предварительно обученные модели для их адаптации к новым задачам. Модели смеси LoRA (Mixture-of-LoRAs) эффективно расширяют нейронные сети, направляя вход каждого слоя в небольшое подмножество специализированных LoRA этого слоя. Существующие маршрутизаторы Mixture-of-LoRAs назначают каждому LoRA обучаемый вес маршрутизации, что позволяет осуществлять сквозное обучение маршрутизатора. Несмотря на эмпирические перспективы, мы наблюдаем, что на практике веса маршрутизации обычно крайне несбалансированы между LoRA: часто доминирует только один или два адаптера. Это ограничивает количество эффективных LoRA и, следовательно, серьезно снижает выразительную способность существующих моделей Mixture-of-LoRAs. В данной работе мы связываем этот недостаток с природой обучаемых весов маршрутизации и переосмысливаем базовый дизайн маршрутизатора. Для решения этой ключевой проблемы мы предлагаем новую конструкцию маршрутизатора, названную Reinforcement Routing for Mixture-of-LoRAs (ReMix). Наша ключевая идея — использование необучаемых весов маршрутизации для обеспечения равной эффективности всех активных LoRA, без доминирования какого-либо одного адаптера. Однако наши маршрутизаторы не могут обучаться напрямую с помощью градиентного спуска из-за необучаемых весов. Поэтому мы дополнительно предлагаем несмещенный оценщик градиента для маршрутизатора, используя технику reinforce leave-one-out (RLOO), где мы рассматриваем функцию потерь как вознаграждение, а маршрутизатор — как стратегию в обучении с подкреплением. Наш оценщик градиента также позволяет масштабировать вычислительные ресурсы для обучения, чтобы повысить прогнозную производительность нашего ReMix. Многочисленные эксперименты демонстрируют, что предложенный метод ReMix значительно превосходит современные методы эффективной по параметрам тонкой настройки при сопоставимом количестве активированных параметров.
English
Low-rank adapters (LoRAs) are a parameter-efficient finetuning technique that injects trainable low-rank matrices into pretrained models to adapt them to new tasks. Mixture-of-LoRAs models expand neural networks efficiently by routing each layer input to a small subset of specialized LoRAs of the layer. Existing Mixture-of-LoRAs routers assign a learned routing weight to each LoRA to enable end-to-end training of the router. Despite their empirical promise, we observe that the routing weights are typically extremely imbalanced across LoRAs in practice, where only one or two LoRAs often dominate the routing weights. This essentially limits the number of effective LoRAs and thus severely hinders the expressive power of existing Mixture-of-LoRAs models. In this work, we attribute this weakness to the nature of learnable routing weights and rethink the fundamental design of the router. To address this critical issue, we propose a new router designed that we call Reinforcement Routing for Mixture-of-LoRAs (ReMix). Our key idea is using non-learnable routing weights to ensure all active LoRAs to be equally effective, with no LoRA dominating the routing weights. However, our routers cannot be trained directly via gradient descent due to our non-learnable routing weights. Hence, we further propose an unbiased gradient estimator for the router by employing the reinforce leave-one-out (RLOO) technique, where we regard the supervision loss as the reward and the router as the policy in reinforcement learning. Our gradient estimator also enables to scale up training compute to boost the predictive performance of our ReMix. Extensive experiments demonstrate that our proposed ReMix significantly outperform state-of-the-art parameter-efficient finetuning methods under a comparable number of activated parameters.