Router-R1: Enseñanza de Enrutamiento y Agregación Multironda en LLMs mediante Aprendizaje por Refuerzo

Resumen

El rápido surgimiento de diversos modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha impulsado el desarrollo de enrutadores de LLMs que asignan las consultas de los usuarios al modelo más adecuado. Sin embargo, los enrutadores de LLMs existentes suelen realizar un mapeo de una sola ronda y uno a uno (es decir, asignar cada consulta a un único modelo de forma aislada), lo que limita su capacidad para abordar tareas complejas que requieren las fortalezas complementarias de múltiples LLMs. En este artículo, presentamos Router-R1, un marco basado en aprendizaje por refuerzo (RL, por sus siglas en inglés) que formula el enrutamiento y la agregación de múltiples LLMs como un proceso de decisión secuencial. Router-R1 instancia el enrutador en sí como un LLM capaz, aprovechando su capacidad de razonamiento para intercalar acciones de "pensar" (deliberación interna) con acciones de "enrutar" (invocación dinámica de modelos), e integra cada respuesta en su contexto en evolución. Para guiar el aprendizaje, empleamos una recompensa basada en reglas livianas que incluye recompensas de formato, recompensas de resultado final y una novedosa recompensa de costo para la optimización del equilibrio entre rendimiento y costo, abriendo una vía hacia la optimización de este equilibrio mediante RL. Router-R1 también se condiciona únicamente en descriptores simples de modelos, como precios, latencia y ejemplos de rendimiento, lo que permite una fuerte generalización a la selección de modelos no vistos. Los experimentos en siete puntos de referencia generales y de preguntas y respuestas de múltiples saltos muestran que Router-R1 supera a varias líneas base sólidas, logrando un rendimiento superior mientras mantiene una generalización robusta y una gestión de costos eficiente. El código está disponible en https://github.com/ulab-uiuc/Router-R1.

English

The rapid emergence of diverse large language models (LLMs) has spurred the development of LLM routers that assign user queries to the most suitable model. However, existing LLM routers typically perform a single-round, one-to-one mapping (i.e., assigning each query to a single model in isolation), which limits their capability to tackle complex tasks that demand the complementary strengths of multiple LLMs. In this paper, we present Router-R1, a reinforcement learning (RL)-based framework that formulates multi-LLM routing and aggregation as a sequential decision process. Router-R1 instantiates the router itself as a capable LLM, leveraging its reasoning ability to interleave "think" actions (internal deliberation) with "route" actions (dynamic model invocation), and integrates each response into its evolving context. To guide learning, we employ a lightweight rule-based reward comprising format rewards, final outcome rewards, and a novel cost reward for performance and cost trade-off optimization, opening a pathway toward optimizing performance-cost tradeoffs via RL. Router-R1 also conditions only on simple model descriptors such as pricing, latency, and example performance, enabling strong generalization to unseen model selection. Experiments on seven general and multi-hop QA benchmarks show that Router-R1 outperforms over several strong baselines, achieving superior performance while maintaining robust generalization and cost management.Code is available at https://github.com/ulab-uiuc/Router-R1.

Router-R1: Enseñanza de Enrutamiento y Agregación Multironda en LLMs mediante Aprendizaje por Refuerzo

Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning

Resumen

Support