Router-R1: Insegnare il Routing e l'Aggregazione Multi-Round ai Modelli Linguistici di Grande Dimensione tramite Apprendimento per Rinforzo
Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning
June 10, 2025
Autori: Haozhen Zhang, Tao Feng, Jiaxuan You
cs.AI
Abstract
La rapida comparsa di modelli linguistici di grandi dimensioni (LLM) diversificati ha stimolato lo sviluppo di router LLM che assegnano le query degli utenti al modello più adatto. Tuttavia, i router LLM esistenti eseguono tipicamente una mappatura univoca e monodirezionale (cioè assegnano ogni query a un singolo modello in isolamento), il che limita la loro capacità di affrontare compiti complessi che richiedono i punti di forza complementari di più LLM. In questo articolo, presentiamo Router-R1, un framework basato sull'apprendimento per rinforzo (RL) che formula il routing e l'aggregazione multi-LLM come un processo decisionale sequenziale. Router-R1 istanzia il router stesso come un LLM capace, sfruttando la sua capacità di ragionamento per intervallare azioni di "pensiero" (deliberazione interna) con azioni di "routing" (invocazione dinamica del modello), e integra ogni risposta nel suo contesto in evoluzione. Per guidare l'apprendimento, utilizziamo una ricompensa basata su regole leggera che comprende ricompense di formato, ricompense di risultato finale e una nuova ricompensa di costo per l'ottimizzazione del compromesso tra prestazioni e costo, aprendo una via verso l'ottimizzazione di tali compromessi tramite RL. Router-R1 si basa inoltre solo su descrittori di modello semplici come prezzo, latenza e prestazioni di esempio, consentendo una forte generalizzazione alla selezione di modelli non visti. Esperimenti su sette benchmark di QA generali e multi-hop dimostrano che Router-R1 supera diversi baseline forti, ottenendo prestazioni superiori mantenendo una robusta generalizzazione e gestione dei costi. Il codice è disponibile all'indirizzo https://github.com/ulab-uiuc/Router-R1.
English
The rapid emergence of diverse large language models (LLMs) has spurred the
development of LLM routers that assign user queries to the most suitable model.
However, existing LLM routers typically perform a single-round, one-to-one
mapping (i.e., assigning each query to a single model in isolation),
which limits their capability to tackle complex tasks that demand the
complementary strengths of multiple LLMs. In this paper, we present
Router-R1, a reinforcement learning (RL)-based framework that
formulates multi-LLM routing and aggregation as a sequential decision process.
Router-R1 instantiates the router itself as a capable LLM, leveraging its
reasoning ability to interleave "think" actions (internal deliberation) with
"route" actions (dynamic model invocation), and integrates each response into
its evolving context. To guide learning, we employ a lightweight rule-based
reward comprising format rewards, final outcome rewards, and a novel cost
reward for performance and cost trade-off optimization, opening a pathway
toward optimizing performance-cost tradeoffs via RL. Router-R1 also conditions
only on simple model descriptors such as pricing, latency, and example
performance, enabling strong generalization to unseen model selection.
Experiments on seven general and multi-hop QA benchmarks show that Router-R1
outperforms over several strong baselines, achieving superior performance while
maintaining robust generalization and cost management.Code is available at
https://github.com/ulab-uiuc/Router-R1.