Router-R1: Ensinando LLMs a Realizar Roteamento e Agregação em Múltiplas Rodadas por meio de Aprendizado por Reforço

Resumo

O surgimento rápido de diversos modelos de linguagem de grande escala (LLMs) impulsionou o desenvolvimento de roteadores de LLMs que atribuem consultas de usuários ao modelo mais adequado. No entanto, os roteadores de LLMs existentes geralmente realizam um mapeamento único e unidirecional (ou seja, atribuindo cada consulta a um único modelo isoladamente), o que limita sua capacidade de lidar com tarefas complexas que exigem os pontos fortes complementares de múltiplos LLMs. Neste artigo, apresentamos o Router-R1, uma estrutura baseada em aprendizado por reforço (RL) que formula o roteamento e agregação de múltiplos LLMs como um processo de decisão sequencial. O Router-R1 instancia o próprio roteador como um LLM capaz, aproveitando sua habilidade de raciocínio para intercalar ações de "pensar" (deliberação interna) com ações de "rotear" (invocação dinâmica de modelos) e integra cada resposta em seu contexto em evolução. Para orientar o aprendizado, empregamos uma recompensa leve baseada em regras que inclui recompensas de formato, recompensas de resultado final e uma nova recompensa de custo para otimizar a relação entre desempenho e custo, abrindo um caminho para otimizar essa relação via RL. O Router-R1 também se baseia apenas em descritores simples de modelos, como preço, latência e desempenho de exemplo, permitindo uma forte generalização para seleção de modelos não vistos. Experimentos em sete benchmarks de QA geral e multi-hop mostram que o Router-R1 supera várias linhas de base fortes, alcançando desempenho superior enquanto mantém generalização robusta e gerenciamento de custos. O código está disponível em https://github.com/ulab-uiuc/Router-R1.

English

The rapid emergence of diverse large language models (LLMs) has spurred the development of LLM routers that assign user queries to the most suitable model. However, existing LLM routers typically perform a single-round, one-to-one mapping (i.e., assigning each query to a single model in isolation), which limits their capability to tackle complex tasks that demand the complementary strengths of multiple LLMs. In this paper, we present Router-R1, a reinforcement learning (RL)-based framework that formulates multi-LLM routing and aggregation as a sequential decision process. Router-R1 instantiates the router itself as a capable LLM, leveraging its reasoning ability to interleave "think" actions (internal deliberation) with "route" actions (dynamic model invocation), and integrates each response into its evolving context. To guide learning, we employ a lightweight rule-based reward comprising format rewards, final outcome rewards, and a novel cost reward for performance and cost trade-off optimization, opening a pathway toward optimizing performance-cost tradeoffs via RL. Router-R1 also conditions only on simple model descriptors such as pricing, latency, and example performance, enabling strong generalization to unseen model selection. Experiments on seven general and multi-hop QA benchmarks show that Router-R1 outperforms over several strong baselines, achieving superior performance while maintaining robust generalization and cost management.Code is available at https://github.com/ulab-uiuc/Router-R1.

Router-R1: Ensinando LLMs a Realizar Roteamento e Agregação em Múltiplas Rodadas por meio de Aprendizado por Reforço

Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning

Resumo

Support