Router-R1 : Enseignement du routage et de l'agrégation multi-tours aux LLM via l'apprentissage par renforcement

papers.abstract

L'émergence rapide de divers modèles de langage de grande taille (LLMs) a stimulé le développement de routeurs de LLMs qui assignent les requêtes des utilisateurs au modèle le plus adapté. Cependant, les routeurs de LLMs existants effectuent généralement une correspondance unique et unidirectionnelle (c'est-à-dire, assignant chaque requête à un seul modèle de manière isolée), ce qui limite leur capacité à traiter des tâches complexes nécessitant les forces complémentaires de plusieurs LLMs. Dans cet article, nous présentons Router-R1, un cadre basé sur l'apprentissage par renforcement (RL) qui formule le routage et l'agrégation multi-LLMs comme un processus de décision séquentiel. Router-R1 instancie le routeur lui-même comme un LLM compétent, exploitant sa capacité de raisonnement pour entrelacer des actions de "réflexion" (délibération interne) avec des actions de "routage" (invocation dynamique de modèles), et intègre chaque réponse dans son contexte évolutif. Pour guider l'apprentissage, nous employons une récompense légère basée sur des règles comprenant des récompenses de format, des récompenses de résultat final, et une nouvelle récompense de coût pour l'optimisation du compromis performance-coût, ouvrant ainsi une voie vers l'optimisation des compromis performance-coût via le RL. Router-R1 se base également uniquement sur des descripteurs de modèle simples tels que le prix, la latence et la performance d'exemple, permettant une forte généralisation à la sélection de modèles non vus. Les expériences sur sept benchmarks de questions-réponses générales et multi-sauts montrent que Router-R1 surpasse plusieurs bases de référence solides, atteignant une performance supérieure tout en maintenant une généralisation robuste et une gestion des coûts. Le code est disponible à l'adresse https://github.com/ulab-uiuc/Router-R1.

English

The rapid emergence of diverse large language models (LLMs) has spurred the development of LLM routers that assign user queries to the most suitable model. However, existing LLM routers typically perform a single-round, one-to-one mapping (i.e., assigning each query to a single model in isolation), which limits their capability to tackle complex tasks that demand the complementary strengths of multiple LLMs. In this paper, we present Router-R1, a reinforcement learning (RL)-based framework that formulates multi-LLM routing and aggregation as a sequential decision process. Router-R1 instantiates the router itself as a capable LLM, leveraging its reasoning ability to interleave "think" actions (internal deliberation) with "route" actions (dynamic model invocation), and integrates each response into its evolving context. To guide learning, we employ a lightweight rule-based reward comprising format rewards, final outcome rewards, and a novel cost reward for performance and cost trade-off optimization, opening a pathway toward optimizing performance-cost tradeoffs via RL. Router-R1 also conditions only on simple model descriptors such as pricing, latency, and example performance, enabling strong generalization to unseen model selection. Experiments on seven general and multi-hop QA benchmarks show that Router-R1 outperforms over several strong baselines, achieving superior performance while maintaining robust generalization and cost management.Code is available at https://github.com/ulab-uiuc/Router-R1.

Router-R1 : Enseignement du routage et de l'agrégation multi-tours aux LLM via l'apprentissage par renforcement

Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning

papers.abstract

Support