Maestro : Apprentissage par renforcement pour orchestrer des ensembles hiérarchiques de modèles-compétences
Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles
May 21, 2026
Auteurs: Jinyang Wu, Guocheng Zhai, Ruihan Jin, Yuhao Shen, Zhengxi Lu, Fan Zhang, Haoran Luo, Zheng Lian, Zhengqi Wen, Jianhua Tao
cs.AI
Résumé
La prolifération des grands modèles de langage (LLMs) et des compétences modulaires a doté les agents autonomes de capacités toujours plus puissantes. Les cadres existants s'appuient généralement sur des LLMs monolithiques et une logique fixe pour interfacer ces compétences. Cela engendre un goulot d'étranglement critique : différents LLMs offrent des avantages distincts dans des domaines variés, mais les cadres actuels ne parviennent pas à exploiter les forces complémentaires des modèles et des compétences, limitant ainsi leurs performances sur les tâches en aval. Dans cet article, nous présentons Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration), un cadre d'orchestration piloté par l'apprentissage par renforcement (RL) qui reformule des tâches multimodales hétérogènes comme un processus de prise de décision séquentielle sur un registre hiérarchique de modèles et de compétences. Plutôt que de consolider toutes les connaissances dans un seul modèle, Maestro entraîne une politique légère pour composer dynamiquement des ensembles de modèles experts gelés et une bibliothèque de compétences à deux niveaux, décidant à chaque étape s'il faut invoquer un expert externe, quelle paire modèle-compétence sélectionner, et quand se terminer. La politique est optimisée via un RL basé sur les résultats, sans nécessiter de supervision au niveau des étapes. Nous évaluons Maestro sur dix références multimodales représentatives couvrant le raisonnement mathématique, la compréhension de graphiques, la perception à haute résolution et l'analyse spécifique à un domaine. Avec un orchestrateur de seulement 4B, Maestro atteint une précision moyenne de 70,1 %, surpassant à la fois GPT-5 (69,3 %) et Gemini-2.5-Pro (68,7 %). Fait crucial, la politique de coordination apprise se généralise à des modèles et compétences inédits sans réentraînement : l'ajout d'experts hors domaine au registre permet d'obtenir une moyenne de 59,5 % sur quatre références difficiles, surpassant toutes les bases de référence propriétaires. Maestro maintient en outre une haute efficacité computationnelle avec une faible latence. Le code source est disponible à l'adresse https://github.com/jinyangwu/Maestro.
English
The proliferation of large language models (LLMs) and modular skills has endowed autonomous agents with increasingly powerful capabilities. Existing frameworks typically rely on monolithic LLMs and fixed logic to interface with these skills. This gives rise to a critical bottleneck: different LLMs offer distinct advantages across diverse domains, yet current frameworks fail to exploit the complementary strengths of models and skills, thereby limiting their performance on downstream tasks. In this paper, we present Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration), a Reinforcement Learning (RL)-driven orchestration framework that reframes heterogeneous multimodal tasks as a sequential decision-making process over a hierarchical model-skill registry. Rather than consolidating all knowledge into a single model, Maestro trains a lightweight policy to dynamically compose ensembles of frozen expert models and a two-tier skill library, deciding at each step whether to invoke an external expert, which model-skill pair to select, and when to terminate. The policy is optimized via outcome-based RL, requiring no step-level supervision. We evaluate Maestro across ten representative multimodal benchmarks spanning mathematical reasoning, chart understanding, high-resolution perception, and domain-specific analysis. With only a 4B orchestrator, Maestro achieves an average accuracy of 70.1%, surpassing both GPT-5 (69.3%) and Gemini-2.5-Pro (68.7%). Crucially, the learned coordination policy generalizes to unseen models and skills without retraining: augmenting the registry with out-of-domain experts yields a 59.5% average on four challenging benchmarks, outperforming all closed-source baselines. Maestro further maintains high computational efficiency with low latency. The source code is available at https://github.com/jinyangwu/Maestro.