Router-R1: Обучение крупных языковых моделей многораундовой маршрутизации и агрегации с использованием обучения с подкреплением
Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning
June 10, 2025
Авторы: Haozhen Zhang, Tao Feng, Jiaxuan You
cs.AI
Аннотация
Быстрое появление разнообразных крупных языковых моделей (LLM) стимулировало разработку маршрутизаторов LLM, которые направляют пользовательские запросы к наиболее подходящей модели. Однако существующие маршрутизаторы LLM обычно выполняют однократное, одно-к-одному сопоставление (т.е. назначают каждый запрос одной модели изолированно), что ограничивает их способность решать сложные задачи, требующие комплементарных сильных сторон нескольких LLM. В данной статье мы представляем Router-R1, основанную на обучении с подкреплением (RL) структуру, которая формулирует маршрутизацию и агрегацию нескольких LLM как последовательный процесс принятия решений. Router-R1 реализует сам маршрутизатор как мощную LLM, используя её способность к рассуждению для чередования действий "думать" (внутреннее обдумывание) с действиями "маршрутизировать" (динамический вызов модели) и интегрирует каждый ответ в свой развивающийся контекст. Для управления обучением мы используем легковесное правило-основанное вознаграждение, включающее вознаграждения за формат, конечный результат и новое вознаграждение за стоимость для оптимизации компромисса между производительностью и затратами, открывая путь к оптимизации компромиссов производительности и затрат через RL. Router-R1 также учитывает только простые описатели моделей, такие как цена, задержка и примеры производительности, что обеспечивает сильное обобщение для выбора неизвестных моделей. Эксперименты на семи общих и многошаговых тестах QA показывают, что Router-R1 превосходит несколько сильных базовых моделей, достигая превосходной производительности при сохранении устойчивого обобщения и управления затратами. Код доступен по адресу https://github.com/ulab-uiuc/Router-R1.
English
The rapid emergence of diverse large language models (LLMs) has spurred the
development of LLM routers that assign user queries to the most suitable model.
However, existing LLM routers typically perform a single-round, one-to-one
mapping (i.e., assigning each query to a single model in isolation),
which limits their capability to tackle complex tasks that demand the
complementary strengths of multiple LLMs. In this paper, we present
Router-R1, a reinforcement learning (RL)-based framework that
formulates multi-LLM routing and aggregation as a sequential decision process.
Router-R1 instantiates the router itself as a capable LLM, leveraging its
reasoning ability to interleave "think" actions (internal deliberation) with
"route" actions (dynamic model invocation), and integrates each response into
its evolving context. To guide learning, we employ a lightweight rule-based
reward comprising format rewards, final outcome rewards, and a novel cost
reward for performance and cost trade-off optimization, opening a pathway
toward optimizing performance-cost tradeoffs via RL. Router-R1 also conditions
only on simple model descriptors such as pricing, latency, and example
performance, enabling strong generalization to unseen model selection.
Experiments on seven general and multi-hop QA benchmarks show that Router-R1
outperforms over several strong baselines, achieving superior performance while
maintaining robust generalization and cost management.Code is available at
https://github.com/ulab-uiuc/Router-R1.