SkillOrchestra: Обучение маршрутизации агентов посредством передачи навыков

Аннотация

Композитные системы ИИ обладают потенциалом, превосходящим возможности отдельных моделей, однако их успех критически зависит от эффективной оркестровки. Существующие подходы к маршрутизации сталкиваются с двумя ограничениями: (1) маршрутизаторы на уровне входных данных принимают грубые решения на уровне запросов, игнорируя развивающиеся требования задачи; (2) оркестраторы, обученные с подкреплением, дорого адаптировать, и они часто страдают от коллапса маршрутизации, многократно вызывая одну мощную, но дорогостоящую опцию в сценариях с множеством turns. Мы представляем SkillOrchestra — фреймворк для оркестровки с учетом навыков. Вместо прямого сквозного обучения политике маршрутизации, SkillOrchestra извлекает детализированные навыки из опыта выполнения, моделируя компетенцию и стоимость, специфичные для агентов, в рамках этих навыков. При развертывании оркестратор выводит потребности в навыках для текущего взаимодействия и выбирает агентов, которые наилучшим образом удовлетворяют им с учетом явного компромисса между производительностью и стоимостью. Масштабные эксперименты на десяти бенчмарках демонстрируют, что SkillOrchestra превосходит современные оркестраторы на основе обучения с подкреплением до 22.5%, при этом стоимость обучения снижается в 700 и 300 раз по сравнению с Router-R1 и ToolOrchestra соответственно. Эти результаты показывают, что явное моделирование навыков обеспечивает масштабируемую, интерпретируемую и эффективную по выборкам оркестровку, предлагая принципиальную альтернативу требовательным к данным подходам на основе обучения с подкреплением. Код доступен по адресу: https://github.com/jiayuww/SkillOrchestra.

English

Compound AI systems promise capabilities beyond those of individual models, yet their success depends critically on effective orchestration. Existing routing approaches face two limitations: (1) input-level routers make coarse query-level decisions that ignore evolving task requirements; (2) RL-trained orchestrators are expensive to adapt and often suffer from routing collapse, repeatedly invoking one strong but costly option in multi-turn scenarios. We introduce SkillOrchestra, a framework for skill-aware orchestration. Instead of directly learning a routing policy end-to-end, SkillOrchestra learns fine-grained skills from execution experience and models agent-specific competence and cost under those skills. At deployment, the orchestrator infers the skill demands of the current interaction and selects agents that best satisfy them under an explicit performance-cost trade-off. Extensive experiments across ten benchmarks demonstrate that SkillOrchestra outperforms SoTA RL-based orchestrators by up to 22.5% with 700x and 300x learning cost reduction compared to Router-R1 and ToolOrchestra, respectively. These results show that explicit skill modeling enables scalable, interpretable, and sample-efficient orchestration, offering a principled alternative to data-intensive RL-based approaches. The code is available at: https://github.com/jiayuww/SkillOrchestra.

SkillOrchestra: Обучение маршрутизации агентов посредством передачи навыков

SkillOrchestra: Learning to Route Agents via Skill Transfer

Аннотация

Support