SkillOrchestra: Roteamento de Agentes por meio de Transferência de Habilidades

Resumo

Os sistemas de IA compostos prometem capacidades além dos modelos individuais, mas seu sucesso depende criticamente de uma orquestração eficaz. As abordagens de roteamento existentes enfrentam duas limitações: (1) roteadores em nível de entrada tomam decisões grosseiras em nível de consulta que ignoram requisitos de tarefa em evolução; (2) orquestradores treinados com RL são caros para adaptar e frequentemente sofrem de colapso de roteamento, invocando repetidamente uma opção forte mas custosa em cenários multi-turn. Apresentamos o SkillOrchestra, uma estrutura para orquestração consciente de habilidades. Em vez de aprender diretamente uma política de roteamento end-to-end, o SkillOrchestra aprende habilidades refinadas a partir da experiência de execução e modela a competência e o custo específicos do agente sob essas habilidades. Na implantação, o orquestrador infere as demandas de habilidade da interação atual e seleciona os agentes que melhor as satisfazem sob uma compensação explícita entre desempenho e custo. Experimentos extensos em dez benchmarks demonstram que o SkillOrchestra supera orquestradores baseados em RL state-of-the-art em até 22,5%, com redução de custo de aprendizado de 700x e 300x em comparação com Router-R1 e ToolOrchestra, respectivamente. Esses resultados mostram que a modelagem explícita de habilidades permite uma orquestração escalável, interpretável e eficiente em amostras, oferecendo uma alternativa fundamentada às abordagens baseadas em RL intensivas em dados. O código está disponível em: https://github.com/jiayuww/SkillOrchestra.

English

Compound AI systems promise capabilities beyond those of individual models, yet their success depends critically on effective orchestration. Existing routing approaches face two limitations: (1) input-level routers make coarse query-level decisions that ignore evolving task requirements; (2) RL-trained orchestrators are expensive to adapt and often suffer from routing collapse, repeatedly invoking one strong but costly option in multi-turn scenarios. We introduce SkillOrchestra, a framework for skill-aware orchestration. Instead of directly learning a routing policy end-to-end, SkillOrchestra learns fine-grained skills from execution experience and models agent-specific competence and cost under those skills. At deployment, the orchestrator infers the skill demands of the current interaction and selects agents that best satisfy them under an explicit performance-cost trade-off. Extensive experiments across ten benchmarks demonstrate that SkillOrchestra outperforms SoTA RL-based orchestrators by up to 22.5% with 700x and 300x learning cost reduction compared to Router-R1 and ToolOrchestra, respectively. These results show that explicit skill modeling enables scalable, interpretable, and sample-efficient orchestration, offering a principled alternative to data-intensive RL-based approaches. The code is available at: https://github.com/jiayuww/SkillOrchestra.