SkillOrchestra : Apprentissage du routage d'agents par transfert de compétences

Résumé

Les systèmes d'IA composés promettent des capacités dépassant celles des modèles individuels, mais leur succès dépend crucialement d'une orchestration efficace. Les approches de routage existantes présentent deux limitations : (1) les routeurs au niveau des entrées prennent des décisions grossières au niveau de la requête, ignorant l'évolution des besoins de la tâche ; (2) les orchestrateurs entraînés par apprentissage par renforcement sont coûteux à adapter et souffrent souvent d'un effondrement du routage, invoquant de manière répétée une option puissante mais coûteuse dans des scénarios multi-tours. Nous présentons SkillOrchestra, un cadre pour l'orchestration consciente des compétences. Au lieu d'apprendre directement une politique de routage de bout en bout, SkillOrchestra apprend des compétences fines à partir de l'expérience d'exécution et modélise la compétence et le coût spécifiques aux agents sous ces compétences. Au déploiement, l'orchestrateur infère les besoins en compétences de l'interaction en cours et sélectionne les agents qui les satisfont le mieux sous un compromis explicite performance-coût. Des expériences approfondies sur dix benchmarks démontrent que SkillOrchestra surpasse les orchestrateurs état de l'art basés sur l'apprentissage par renforcement jusqu'à 22,5 %, avec une réduction du coût d'apprentissage de 700x et 300x respectivement par rapport à Router-R1 et ToolOrchestra. Ces résultats montrent que la modélisation explicite des compétences permet une orchestration évolutive, interprétable et économe en échantillons, offrant une alternative rigoureuse aux approches basées sur l'apprentissage par renforcement intensives en données. Le code est disponible à l'adresse : https://github.com/jiayuww/SkillOrchestra.

English

Compound AI systems promise capabilities beyond those of individual models, yet their success depends critically on effective orchestration. Existing routing approaches face two limitations: (1) input-level routers make coarse query-level decisions that ignore evolving task requirements; (2) RL-trained orchestrators are expensive to adapt and often suffer from routing collapse, repeatedly invoking one strong but costly option in multi-turn scenarios. We introduce SkillOrchestra, a framework for skill-aware orchestration. Instead of directly learning a routing policy end-to-end, SkillOrchestra learns fine-grained skills from execution experience and models agent-specific competence and cost under those skills. At deployment, the orchestrator infers the skill demands of the current interaction and selects agents that best satisfy them under an explicit performance-cost trade-off. Extensive experiments across ten benchmarks demonstrate that SkillOrchestra outperforms SoTA RL-based orchestrators by up to 22.5% with 700x and 300x learning cost reduction compared to Router-R1 and ToolOrchestra, respectively. These results show that explicit skill modeling enables scalable, interpretable, and sample-efficient orchestration, offering a principled alternative to data-intensive RL-based approaches. The code is available at: https://github.com/jiayuww/SkillOrchestra.

SkillOrchestra : Apprentissage du routage d'agents par transfert de compétences

SkillOrchestra: Learning to Route Agents via Skill Transfer

Résumé

Support