SkillOrchestra: Het Leren Routeren van Agenten via Vaardigheidsoverdracht

Samenvatting

Samengestelde AI-systemen beloven capaciteiten die verder gaan dan die van individuele modellen, maar hun succes hangt cruciaal af van effectieve orkestratie. Bestaande routeringsmethoden kampen met twee beperkingen: (1) routers op invoerniveau nemen grove beslissingen op queryniveau die de evoluerende taakvereisten negeren; (2) op reinforcement learning getrainde orkestrators zijn kostbaar aan te passen en lijden vaak aan routeringscollaps, waarbij ze in scenario's met meerdere beurten herhaaldelijk één sterke maar kostbare optie aanroepen. Wij introduceren SkillOrchestra, een raamwerk voor vaardigheidsbewuste orkestratie. In plaats van direct end-to-end een routeringsbeleid te leren, leert SkillOrchestra fijnmazige vaardigheden uit uitvoeringsexperience en modelleert het agentspecifieke competentie en kosten onder die vaardigheden. Tijdens implementatie leidt de orkestrator de vaardigheidseisen van de huidige interactie af en selecteert agents die hier het beste aan voldoen onder een expliciete prestatie-kostenafweging. Uitgebreide experimenten over tien benchmarks tonen aan dat SkillOrchestra state-of-the-art op RL gebaseerde orkestrators met tot 22,5% overtreft, met een 700x en 300x reductie in leerkosten vergeleken met respectievelijk Router-R1 en ToolOrchestra. Deze resultaten tonen aan dat expliciete vaardigheidsmodellering schaalbare, interpreteerbare en sample-efficiënte orkestratie mogelijk maakt, en biedt een principieel alternatief voor data-intensieve op RL gebaseerde benaderingen. De code is beschikbaar op: https://github.com/jiayuww/SkillOrchestra.

English

Compound AI systems promise capabilities beyond those of individual models, yet their success depends critically on effective orchestration. Existing routing approaches face two limitations: (1) input-level routers make coarse query-level decisions that ignore evolving task requirements; (2) RL-trained orchestrators are expensive to adapt and often suffer from routing collapse, repeatedly invoking one strong but costly option in multi-turn scenarios. We introduce SkillOrchestra, a framework for skill-aware orchestration. Instead of directly learning a routing policy end-to-end, SkillOrchestra learns fine-grained skills from execution experience and models agent-specific competence and cost under those skills. At deployment, the orchestrator infers the skill demands of the current interaction and selects agents that best satisfy them under an explicit performance-cost trade-off. Extensive experiments across ten benchmarks demonstrate that SkillOrchestra outperforms SoTA RL-based orchestrators by up to 22.5% with 700x and 300x learning cost reduction compared to Router-R1 and ToolOrchestra, respectively. These results show that explicit skill modeling enables scalable, interpretable, and sample-efficient orchestration, offering a principled alternative to data-intensive RL-based approaches. The code is available at: https://github.com/jiayuww/SkillOrchestra.

SkillOrchestra: Het Leren Routeren van Agenten via Vaardigheidsoverdracht

SkillOrchestra: Learning to Route Agents via Skill Transfer

Samenvatting

Support