SkillOrchestra: Обучение маршрутизации агентов посредством передачи навыков
SkillOrchestra: Learning to Route Agents via Skill Transfer
February 23, 2026
Авторы: Jiayu Wang, Yifei Ming, Zixuan Ke, Shafiq Joty, Aws Albarghouthi, Frederic Sala
cs.AI
Аннотация
Композитные системы ИИ обладают потенциалом, превосходящим возможности отдельных моделей, однако их успех критически зависит от эффективной оркестровки. Существующие подходы к маршрутизации сталкиваются с двумя ограничениями: (1) маршрутизаторы на уровне входных данных принимают грубые решения на уровне запросов, игнорируя развивающиеся требования задачи; (2) оркестраторы, обученные с подкреплением, дорого адаптировать, и они часто страдают от коллапса маршрутизации, многократно вызывая одну мощную, но дорогостоящую опцию в сценариях с множеством turns. Мы представляем SkillOrchestra — фреймворк для оркестровки с учетом навыков. Вместо прямого сквозного обучения политике маршрутизации, SkillOrchestra извлекает детализированные навыки из опыта выполнения, моделируя компетенцию и стоимость, специфичные для агентов, в рамках этих навыков. При развертывании оркестратор выводит потребности в навыках для текущего взаимодействия и выбирает агентов, которые наилучшим образом удовлетворяют им с учетом явного компромисса между производительностью и стоимостью. Масштабные эксперименты на десяти бенчмарках демонстрируют, что SkillOrchestra превосходит современные оркестраторы на основе обучения с подкреплением до 22.5%, при этом стоимость обучения снижается в 700 и 300 раз по сравнению с Router-R1 и ToolOrchestra соответственно. Эти результаты показывают, что явное моделирование навыков обеспечивает масштабируемую, интерпретируемую и эффективную по выборкам оркестровку, предлагая принципиальную альтернативу требовательным к данным подходам на основе обучения с подкреплением. Код доступен по адресу: https://github.com/jiayuww/SkillOrchestra.
English
Compound AI systems promise capabilities beyond those of individual models, yet their success depends critically on effective orchestration. Existing routing approaches face two limitations: (1) input-level routers make coarse query-level decisions that ignore evolving task requirements; (2) RL-trained orchestrators are expensive to adapt and often suffer from routing collapse, repeatedly invoking one strong but costly option in multi-turn scenarios. We introduce SkillOrchestra, a framework for skill-aware orchestration. Instead of directly learning a routing policy end-to-end, SkillOrchestra learns fine-grained skills from execution experience and models agent-specific competence and cost under those skills. At deployment, the orchestrator infers the skill demands of the current interaction and selects agents that best satisfy them under an explicit performance-cost trade-off. Extensive experiments across ten benchmarks demonstrate that SkillOrchestra outperforms SoTA RL-based orchestrators by up to 22.5% with 700x and 300x learning cost reduction compared to Router-R1 and ToolOrchestra, respectively. These results show that explicit skill modeling enables scalable, interpretable, and sample-efficient orchestration, offering a principled alternative to data-intensive RL-based approaches. The code is available at: https://github.com/jiayuww/SkillOrchestra.