Router-R1: Enseñanza de Enrutamiento y Agregación Multironda en LLMs mediante Aprendizaje por Refuerzo
Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning
June 10, 2025
Autores: Haozhen Zhang, Tao Feng, Jiaxuan You
cs.AI
Resumen
El rápido surgimiento de diversos modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha impulsado el desarrollo de enrutadores de LLMs que asignan las consultas de los usuarios al modelo más adecuado. Sin embargo, los enrutadores de LLMs existentes suelen realizar un mapeo de una sola ronda y uno a uno (es decir, asignar cada consulta a un único modelo de forma aislada), lo que limita su capacidad para abordar tareas complejas que requieren las fortalezas complementarias de múltiples LLMs. En este artículo, presentamos Router-R1, un marco basado en aprendizaje por refuerzo (RL, por sus siglas en inglés) que formula el enrutamiento y la agregación de múltiples LLMs como un proceso de decisión secuencial. Router-R1 instancia el enrutador en sí como un LLM capaz, aprovechando su capacidad de razonamiento para intercalar acciones de "pensar" (deliberación interna) con acciones de "enrutar" (invocación dinámica de modelos), e integra cada respuesta en su contexto en evolución. Para guiar el aprendizaje, empleamos una recompensa basada en reglas livianas que incluye recompensas de formato, recompensas de resultado final y una novedosa recompensa de costo para la optimización del equilibrio entre rendimiento y costo, abriendo una vía hacia la optimización de este equilibrio mediante RL. Router-R1 también se condiciona únicamente en descriptores simples de modelos, como precios, latencia y ejemplos de rendimiento, lo que permite una fuerte generalización a la selección de modelos no vistos. Los experimentos en siete puntos de referencia generales y de preguntas y respuestas de múltiples saltos muestran que Router-R1 supera a varias líneas base sólidas, logrando un rendimiento superior mientras mantiene una generalización robusta y una gestión de costos eficiente. El código está disponible en https://github.com/ulab-uiuc/Router-R1.
English
The rapid emergence of diverse large language models (LLMs) has spurred the
development of LLM routers that assign user queries to the most suitable model.
However, existing LLM routers typically perform a single-round, one-to-one
mapping (i.e., assigning each query to a single model in isolation),
which limits their capability to tackle complex tasks that demand the
complementary strengths of multiple LLMs. In this paper, we present
Router-R1, a reinforcement learning (RL)-based framework that
formulates multi-LLM routing and aggregation as a sequential decision process.
Router-R1 instantiates the router itself as a capable LLM, leveraging its
reasoning ability to interleave "think" actions (internal deliberation) with
"route" actions (dynamic model invocation), and integrates each response into
its evolving context. To guide learning, we employ a lightweight rule-based
reward comprising format rewards, final outcome rewards, and a novel cost
reward for performance and cost trade-off optimization, opening a pathway
toward optimizing performance-cost tradeoffs via RL. Router-R1 also conditions
only on simple model descriptors such as pricing, latency, and example
performance, enabling strong generalization to unseen model selection.
Experiments on seven general and multi-hop QA benchmarks show that Router-R1
outperforms over several strong baselines, achieving superior performance while
maintaining robust generalization and cost management.Code is available at
https://github.com/ulab-uiuc/Router-R1.