Router-R1: Vermittlung von Multi-Round-Routing und Aggregation für LLMs durch Reinforcement Learning
Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning
June 10, 2025
Autoren: Haozhen Zhang, Tao Feng, Jiaxuan You
cs.AI
Zusammenfassung
Das rasche Aufkommen verschiedener großer Sprachmodelle (LLMs) hat die Entwicklung von LLM-Routern vorangetrieben, die Benutzeranfragen dem am besten geeigneten Modell zuweisen. Bisherige LLM-Router führen jedoch typischerweise eine einstufige, eins-zu-eins-Zuordnung durch (d. h., jede Anfrage wird isoliert einem einzelnen Modell zugewiesen), was ihre Fähigkeit einschränkt, komplexe Aufgaben zu bewältigen, die die komplementären Stärken mehrerer LLMs erfordern. In diesem Artikel stellen wir Router-R1 vor, ein auf Reinforcement Learning (RL) basierendes Framework, das das Routing und die Aggregation mehrerer LLMs als sequenziellen Entscheidungsprozess formuliert. Router-R1 implementiert den Router selbst als ein leistungsfähiges LLM, nutzt dessen Fähigkeit zum logischen Denken, um „Denk“-Aktionen (interne Überlegungen) mit „Routing“-Aktionen (dynamische Modellaufrufe) zu verknüpfen, und integriert jede Antwort in seinen sich entwickelnden Kontext. Um das Lernen zu steuern, verwenden wir eine leichtgewichtige, regelbasierte Belohnung, die Formatbelohnungen, Endergebnisbelohnungen und eine neuartige Kostenbelohnung zur Optimierung des Leistungs-Kosten-Verhältnisses umfasst, wodurch ein Weg zur Optimierung von Leistungs-Kosten-Abwägungen über RL eröffnet wird. Router-R1 berücksichtigt zudem nur einfache Modellbeschreibungen wie Preise, Latenz und Beispielleistungen, was eine starke Generalisierung auf unbekannte Modellauswahlen ermöglicht. Experimente auf sieben allgemeinen und Multi-Hop-QA-Benchmarks zeigen, dass Router-R1 mehrere starke Baselines übertrifft, eine überlegene Leistung erzielt und dabei eine robuste Generalisierung und Kostenkontrolle beibehält. Der Code ist verfügbar unter https://github.com/ulab-uiuc/Router-R1.
English
The rapid emergence of diverse large language models (LLMs) has spurred the
development of LLM routers that assign user queries to the most suitable model.
However, existing LLM routers typically perform a single-round, one-to-one
mapping (i.e., assigning each query to a single model in isolation),
which limits their capability to tackle complex tasks that demand the
complementary strengths of multiple LLMs. In this paper, we present
Router-R1, a reinforcement learning (RL)-based framework that
formulates multi-LLM routing and aggregation as a sequential decision process.
Router-R1 instantiates the router itself as a capable LLM, leveraging its
reasoning ability to interleave "think" actions (internal deliberation) with
"route" actions (dynamic model invocation), and integrates each response into
its evolving context. To guide learning, we employ a lightweight rule-based
reward comprising format rewards, final outcome rewards, and a novel cost
reward for performance and cost trade-off optimization, opening a pathway
toward optimizing performance-cost tradeoffs via RL. Router-R1 also conditions
only on simple model descriptors such as pricing, latency, and example
performance, enabling strong generalization to unseen model selection.
Experiments on seven general and multi-hop QA benchmarks show that Router-R1
outperforms over several strong baselines, achieving superior performance while
maintaining robust generalization and cost management.Code is available at
https://github.com/ulab-uiuc/Router-R1.