ChatPaper.aiChatPaper

Maestro: Reinforcement Learning voor het orkestreren van hiërarchische model-skill ensembles

Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

May 21, 2026
Auteurs: Jinyang Wu, Guocheng Zhai, Ruihan Jin, Yuhao Shen, Zhengxi Lu, Fan Zhang, Haoran Luo, Zheng Lian, Zhengqi Wen, Jianhua Tao
cs.AI

Samenvatting

De proliferatie van grote taalmodellen (LLM's) en modulaire vaardigheden heeft autonome agenten uitgerust met steeds krachtigere mogelijkheden. Bestaande raamwerken vertrouwen doorgaans op monolithische LLM's en vaste logica om met deze vaardigheden te communiceren. Dit leidt tot een cruciaal knelpunt: verschillende LLM's bieden uiteenlopende voordelen in diverse domeinen, maar huidige raamwerken slagen er niet in de complementaire sterktes van modellen en vaardigheden te benutten, waardoor hun prestaties op downstreamtaken worden beperkt. In dit artikel presenteren wij Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration), een door versterkend leren (RL) aangedreven orkestratieraamwerk dat heterogene multimodale taken herdefinieert als een sequentieel besluitvormingsproces over een hiërarchisch model-vaardighedenregister. In plaats van alle kennis in één enkel model te consolideren, traint Maestro een lichtgewicht beleid om dynamisch ensembles van bevroren expertmodellen en een tweetrapsvaardighedenbibliotheek samen te stellen, waarbij bij elke stap wordt besloten of een externe expert moet worden aangeroepen, welk model-vaardigheidspaar moet worden geselecteerd en wanneer moet worden beëindigd. Het beleid wordt geoptimaliseerd via uitkomstgebaseerd RL, zonder dat er stapsgewijze supervisie nodig is. We evalueren Maestro op tien representatieve multimodale benchmarks die wiskundig redeneren, grafiekbegrip, hoge-resolutie perceptie en domeinspecifieke analyse bestrijken. Met slechts een 4B-orkestrator behaalt Maestro een gemiddelde nauwkeurigheid van 70,1%, waarmee het zowel GPT-5 (69,3%) als Gemini-2.5-Pro (68,7%) overtreft. Cruciaal is dat het aangeleerde coördinatiebeleid generaliseert naar niet eerder geziene modellen en vaardigheden zonder herautomatisering: het uitbreiden van het register met out-of-domain experts levert een gemiddelde van 59,5% op vier uitdagende benchmarks, waarmee alle closed-source baselines worden overtroffen. Maestro handhaaft verder een hoge computationele efficiëntie met lage latentie. De broncode is beschikbaar op https://github.com/jinyangwu/Maestro.
English
The proliferation of large language models (LLMs) and modular skills has endowed autonomous agents with increasingly powerful capabilities. Existing frameworks typically rely on monolithic LLMs and fixed logic to interface with these skills. This gives rise to a critical bottleneck: different LLMs offer distinct advantages across diverse domains, yet current frameworks fail to exploit the complementary strengths of models and skills, thereby limiting their performance on downstream tasks. In this paper, we present Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration), a Reinforcement Learning (RL)-driven orchestration framework that reframes heterogeneous multimodal tasks as a sequential decision-making process over a hierarchical model-skill registry. Rather than consolidating all knowledge into a single model, Maestro trains a lightweight policy to dynamically compose ensembles of frozen expert models and a two-tier skill library, deciding at each step whether to invoke an external expert, which model-skill pair to select, and when to terminate. The policy is optimized via outcome-based RL, requiring no step-level supervision. We evaluate Maestro across ten representative multimodal benchmarks spanning mathematical reasoning, chart understanding, high-resolution perception, and domain-specific analysis. With only a 4B orchestrator, Maestro achieves an average accuracy of 70.1%, surpassing both GPT-5 (69.3%) and Gemini-2.5-Pro (68.7%). Crucially, the learned coordination policy generalizes to unseen models and skills without retraining: augmenting the registry with out-of-domain experts yields a 59.5% average on four challenging benchmarks, outperforming all closed-source baselines. Maestro further maintains high computational efficiency with low latency. The source code is available at https://github.com/jinyangwu/Maestro.