Router-R1: Обучение крупных языковых моделей многораундовой маршрутизации и агрегации с использованием обучения с подкреплением

Аннотация

Быстрое появление разнообразных крупных языковых моделей (LLM) стимулировало разработку маршрутизаторов LLM, которые направляют пользовательские запросы к наиболее подходящей модели. Однако существующие маршрутизаторы LLM обычно выполняют однократное, одно-к-одному сопоставление (т.е. назначают каждый запрос одной модели изолированно), что ограничивает их способность решать сложные задачи, требующие комплементарных сильных сторон нескольких LLM. В данной статье мы представляем Router-R1, основанную на обучении с подкреплением (RL) структуру, которая формулирует маршрутизацию и агрегацию нескольких LLM как последовательный процесс принятия решений. Router-R1 реализует сам маршрутизатор как мощную LLM, используя её способность к рассуждению для чередования действий "думать" (внутреннее обдумывание) с действиями "маршрутизировать" (динамический вызов модели) и интегрирует каждый ответ в свой развивающийся контекст. Для управления обучением мы используем легковесное правило-основанное вознаграждение, включающее вознаграждения за формат, конечный результат и новое вознаграждение за стоимость для оптимизации компромисса между производительностью и затратами, открывая путь к оптимизации компромиссов производительности и затрат через RL. Router-R1 также учитывает только простые описатели моделей, такие как цена, задержка и примеры производительности, что обеспечивает сильное обобщение для выбора неизвестных моделей. Эксперименты на семи общих и многошаговых тестах QA показывают, что Router-R1 превосходит несколько сильных базовых моделей, достигая превосходной производительности при сохранении устойчивого обобщения и управления затратами. Код доступен по адресу https://github.com/ulab-uiuc/Router-R1.

English

The rapid emergence of diverse large language models (LLMs) has spurred the development of LLM routers that assign user queries to the most suitable model. However, existing LLM routers typically perform a single-round, one-to-one mapping (i.e., assigning each query to a single model in isolation), which limits their capability to tackle complex tasks that demand the complementary strengths of multiple LLMs. In this paper, we present Router-R1, a reinforcement learning (RL)-based framework that formulates multi-LLM routing and aggregation as a sequential decision process. Router-R1 instantiates the router itself as a capable LLM, leveraging its reasoning ability to interleave "think" actions (internal deliberation) with "route" actions (dynamic model invocation), and integrates each response into its evolving context. To guide learning, we employ a lightweight rule-based reward comprising format rewards, final outcome rewards, and a novel cost reward for performance and cost trade-off optimization, opening a pathway toward optimizing performance-cost tradeoffs via RL. Router-R1 also conditions only on simple model descriptors such as pricing, latency, and example performance, enabling strong generalization to unseen model selection. Experiments on seven general and multi-hop QA benchmarks show that Router-R1 outperforms over several strong baselines, achieving superior performance while maintaining robust generalization and cost management.Code is available at https://github.com/ulab-uiuc/Router-R1.

Router-R1: Обучение крупных языковых моделей многораундовой маршрутизации и агрегации с использованием обучения с подкреплением

Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning

Аннотация

Support