Router-R1: Grote Taalmodellen Multi-Ronde Routering en Aggregatie Aanleren via Reinforcement Learning
Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning
June 10, 2025
Auteurs: Haozhen Zhang, Tao Feng, Jiaxuan You
cs.AI
Samenvatting
De snelle opkomst van diverse grote taalmodellen (LLM's) heeft de ontwikkeling van LLM-routers gestimuleerd die gebruikersvragen toewijzen aan het meest geschikte model. Bestaande LLM-routers voeren echter doorgaans een eenmalige, één-op-één toewijzing uit (d.w.z., elke vraag toewijzen aan één model in isolatie), wat hun vermogen beperkt om complexe taken aan te pakken die de complementaire sterktes van meerdere LLM's vereisen. In dit artikel presenteren we Router-R1, een op reinforcement learning (RL) gebaseerd framework dat multi-LLM-routering en -aggregatie formuleert als een sequentieel beslissingsproces. Router-R1 instantieert de router zelf als een krachtig LLM, waarbij het zijn redeneervermogen benut om "denk"-acties (interne overweging) af te wisselen met "route"-acties (dynamische modelaanroeping), en integreert elk antwoord in zijn evoluerende context. Om het leren te sturen, gebruiken we een lichtgewicht op regels gebaseerde beloning bestaande uit formaatbeloningen, eindresultaatbeloningen en een nieuwe kostenbeloning voor optimalisatie van de prestatie-kostenverhouding, wat een pad opent naar het optimaliseren van prestatie-kostenafwegingen via RL. Router-R1 baseert zich ook alleen op eenvoudige modeldescriptoren zoals prijs, latentie en voorbeeldprestaties, wat een sterke generalisatie naar onbekende modelselectie mogelijk maakt. Experimenten op zeven algemene en multi-hop QA-benchmarks tonen aan dat Router-R1 verschillende sterke baselines overtreft, met superieure prestaties terwijl het robuuste generalisatie en kostenbeheer behoudt. Code is beschikbaar op https://github.com/ulab-uiuc/Router-R1.
English
The rapid emergence of diverse large language models (LLMs) has spurred the
development of LLM routers that assign user queries to the most suitable model.
However, existing LLM routers typically perform a single-round, one-to-one
mapping (i.e., assigning each query to a single model in isolation),
which limits their capability to tackle complex tasks that demand the
complementary strengths of multiple LLMs. In this paper, we present
Router-R1, a reinforcement learning (RL)-based framework that
formulates multi-LLM routing and aggregation as a sequential decision process.
Router-R1 instantiates the router itself as a capable LLM, leveraging its
reasoning ability to interleave "think" actions (internal deliberation) with
"route" actions (dynamic model invocation), and integrates each response into
its evolving context. To guide learning, we employ a lightweight rule-based
reward comprising format rewards, final outcome rewards, and a novel cost
reward for performance and cost trade-off optimization, opening a pathway
toward optimizing performance-cost tradeoffs via RL. Router-R1 also conditions
only on simple model descriptors such as pricing, latency, and example
performance, enabling strong generalization to unseen model selection.
Experiments on seven general and multi-hop QA benchmarks show that Router-R1
outperforms over several strong baselines, achieving superior performance while
maintaining robust generalization and cost management.Code is available at
https://github.com/ulab-uiuc/Router-R1.