ChatPaper.aiChatPaper

ReMix: LLM 파인튜닝을 위한 LoRA 혼합의 강화 라우팅

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

March 10, 2026
저자: Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong
cs.AI

초록

로우랭크 어댑터(LoRA)는 사전 학습된 모델을 새로운 작업에 적응시키기 위해 훈련 가능한 로우랭크 행렬을 주입하는 파라미터 효율적 미세조정 기법입니다. LoRA 혼합 모델은 각 계층 입력을 해당 계층의 전문 LoRA 소규모 하위 집합으로 라우팅하여 신경망을 효율적으로 확장합니다. 기존 LoRA 혼합 라우터는 각 LoRA에 학습된 라우팅 가중치를 할당하여 라우터의 종단간 학습을 가능하게 합니다. 이러한 방법론이 경험적으로 유망함에도 불구하고, 실제로는 라우팅 가중치가 LoRA 간에 극도로 불균형하여 종종 하나 또는 두 개의 LoRA만이 라우팅 가중치를 지배하는 현상을 관찰합니다. 이는 본질적으로 유효한 LoRA의 수를 제한하여 기존 LoRA 혼합 모델의 표현력을 심각하게 저해합니다. 본 연구에서는 이러한 약점이 학습 가능한 라우팅 가중치의 본질에서 기인한다고 보고 라우터의 근본적 설계를 재고합니다. 이 중요한 문제를 해결하기 위해 우리는 ReMix(Reinforcement Routing for Mixture-of-LoRAs)라고 명명한 새로운 라우터 설계를 제안합니다. 우리의 핵심 아이디어는 비학습적(non-learnable) 라우팅 가중치를 사용하여 특정 LoRA가 라우팅 가중치를 지배하지 않도록 하면서 모든 활성 LoRA가 동등하게 효과를 발휘하도록 보장하는 것입니다. 그러나 비학습적 라우팅 가중치로 인해 우리의 라우터는 경사 하강법을 통해 직접 학습될 수 없습니다. 따라서 우리는 강화 학습에서 감독 손실을 보상으로, 라우터를 정책(policy)으로 간주하는 reinforce leave-one-out(RLOO) 기법을 적용하여 라우터에 대한 편향되지 않은 경사 추정기를 추가로 제안합니다. 우리의 경사 추정기는 훈련 계산량을 확장하여 ReMix의 예측 성능을 향상시키는 것도 가능하게 합니다. 광범위한 실험을 통해 제안된 ReMix가 유사한 수의 활성화된 파라미터 하에서 최신 파라미터 효율적 미세조정 방법들을 크게 능가함을 입증합니다.
English
Low-rank adapters (LoRAs) are a parameter-efficient finetuning technique that injects trainable low-rank matrices into pretrained models to adapt them to new tasks. Mixture-of-LoRAs models expand neural networks efficiently by routing each layer input to a small subset of specialized LoRAs of the layer. Existing Mixture-of-LoRAs routers assign a learned routing weight to each LoRA to enable end-to-end training of the router. Despite their empirical promise, we observe that the routing weights are typically extremely imbalanced across LoRAs in practice, where only one or two LoRAs often dominate the routing weights. This essentially limits the number of effective LoRAs and thus severely hinders the expressive power of existing Mixture-of-LoRAs models. In this work, we attribute this weakness to the nature of learnable routing weights and rethink the fundamental design of the router. To address this critical issue, we propose a new router designed that we call Reinforcement Routing for Mixture-of-LoRAs (ReMix). Our key idea is using non-learnable routing weights to ensure all active LoRAs to be equally effective, with no LoRA dominating the routing weights. However, our routers cannot be trained directly via gradient descent due to our non-learnable routing weights. Hence, we further propose an unbiased gradient estimator for the router by employing the reinforce leave-one-out (RLOO) technique, where we regard the supervision loss as the reward and the router as the policy in reinforcement learning. Our gradient estimator also enables to scale up training compute to boost the predictive performance of our ReMix. Extensive experiments demonstrate that our proposed ReMix significantly outperform state-of-the-art parameter-efficient finetuning methods under a comparable number of activated parameters.
PDF193March 13, 2026