SkillOrchestra: Aprendizaje del Enrutamiento de Agentes mediante Transferencia de Habilidades

Resumen

Los sistemas de IA compuestos prometen capacidades que superan a las de los modelos individuales, pero su éxito depende críticamente de una orquestación efectiva. Los enfoques de enrutamiento existentes presentan dos limitaciones: (1) los enrutadores a nivel de entrada toman decisiones toscas a nivel de consulta que ignoran los requisitos evolutivos de la tarea; (2) los orquestadores entrenados con RL son costosos de adaptar y a menudo sufren de colapso del enrutamiento, invocando repetidamente una opción potente pero costosa en escenarios de múltiples turnos. Presentamos SkillOrchestra, un marco para la orquestación consciente de habilidades. En lugar de aprender directamente una política de enrutamiento de extremo a extremo, SkillOrchestra aprende habilidades granulares a partir de la experiencia de ejecución y modela la competencia y el costo específicos del agente bajo dichas habilidades. En el despliegue, el orquestador infiere las demandas de habilidad de la interacción actual y selecciona a los agentes que mejor las satisfacen bajo una compensación explícita entre rendimiento y costo. Experimentos exhaustivos en diez puntos de referencia demuestran que SkillOrchestra supera a los orquestadores basados en RL de última generación hasta en un 22.5%, con una reducción del costo de aprendizaje de 700x y 300x en comparación con Router-R1 y ToolOrchestra, respectivamente. Estos resultados muestran que el modelado explícito de habilidades permite una orquestación escalable, interpretable y eficiente en muestras, ofreciendo una alternativa fundamentada a los enfoques intensivos en datos basados en RL. El código está disponible en: https://github.com/jiayuww/SkillOrchestra.

English

Compound AI systems promise capabilities beyond those of individual models, yet their success depends critically on effective orchestration. Existing routing approaches face two limitations: (1) input-level routers make coarse query-level decisions that ignore evolving task requirements; (2) RL-trained orchestrators are expensive to adapt and often suffer from routing collapse, repeatedly invoking one strong but costly option in multi-turn scenarios. We introduce SkillOrchestra, a framework for skill-aware orchestration. Instead of directly learning a routing policy end-to-end, SkillOrchestra learns fine-grained skills from execution experience and models agent-specific competence and cost under those skills. At deployment, the orchestrator infers the skill demands of the current interaction and selects agents that best satisfy them under an explicit performance-cost trade-off. Extensive experiments across ten benchmarks demonstrate that SkillOrchestra outperforms SoTA RL-based orchestrators by up to 22.5% with 700x and 300x learning cost reduction compared to Router-R1 and ToolOrchestra, respectively. These results show that explicit skill modeling enables scalable, interpretable, and sample-efficient orchestration, offering a principled alternative to data-intensive RL-based approaches. The code is available at: https://github.com/jiayuww/SkillOrchestra.

SkillOrchestra: Aprendizaje del Enrutamiento de Agentes mediante Transferencia de Habilidades

SkillOrchestra: Learning to Route Agents via Skill Transfer

Resumen

Support