Maestro: Verstärkungslernen zur Orchestrierung hierarchischer Modell-Skill-Ensembles

Zusammenfassung

Die Verbreitung großer Sprachmodelle (LLMs) und modularer Fähigkeiten hat autonome Agenten mit zunehmend leistungsfähigeren Fähigkeiten ausgestattet. Bestehende Frameworks verlassen sich typischerweise auf monolithische LLMs und feste Logik, um mit diesen Fähigkeiten zu interagieren. Dies führt zu einem kritischen Engpass: Verschiedene LLMs bieten in unterschiedlichen Bereichen deutliche Vorteile, doch aktuelle Frameworks nutzen die komplementären Stärken von Modellen und Fähigkeiten nicht aus, was ihre Leistung bei nachgelagerten Aufgaben einschränkt. In diesem Paper stellen wir Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration) vor, einen durch Reinforcement Learning (RL) gesteuerten Orchestrierungsrahmen, der heterogene multimodale Aufgaben als sequentiellen Entscheidungsprozess über ein hierarchisches Modell-Fähigkeiten-Register auffasst. Anstatt alles Wissen in einem einzigen Modell zu bündeln, trainiert Maestro eine leichtgewichtige Policy, um dynamisch Ensembles aus eingefrorenen Expertenmodellen und einer zweistufigen Fähigkeitsbibliothek zu komponieren. Dabei wird bei jedem Schritt entschieden, ob ein externer Experte aufgerufen werden soll, welches Modell-Fähigkeiten-Paar auszuwählen ist und wann die Interaktion beendet wird. Die Policy wird mittels ergebnisbasiertem RL optimiert, das keine schrittweise Überwachung erfordert. Wir evaluieren Maestro anhand von zehn repräsentativen multimodalen Benchmarks, die mathematisches Denken, Diagrammverständnis, hochauflösende Wahrnehmung und domänenspezifische Analysen abdecken. Mit einem nur 4B großen Orchestrator erreicht Maestro eine durchschnittliche Genauigkeit von 70,1 % und übertrifft damit sowohl GPT-5 (69,3 %) als auch Gemini-2.5-Pro (68,7 %). Entscheidend ist, dass die erlernte Koordinationspolitik ohne Nachtraining auf unbekannte Modelle und Fähigkeiten generalisiert: Die Erweiterung des Registers mit domänenfremden Experten ergibt einen Durchschnitt von 59,5 % bei vier anspruchsvollen Benchmarks und übertrifft damit alle proprietären Baselines. Maestro behält zudem eine hohe Recheneffizienz bei niedriger Latenz. Der Quellcode ist verfügbar unter https://github.com/jinyangwu/Maestro.

English

The proliferation of large language models (LLMs) and modular skills has endowed autonomous agents with increasingly powerful capabilities. Existing frameworks typically rely on monolithic LLMs and fixed logic to interface with these skills. This gives rise to a critical bottleneck: different LLMs offer distinct advantages across diverse domains, yet current frameworks fail to exploit the complementary strengths of models and skills, thereby limiting their performance on downstream tasks. In this paper, we present Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration), a Reinforcement Learning (RL)-driven orchestration framework that reframes heterogeneous multimodal tasks as a sequential decision-making process over a hierarchical model-skill registry. Rather than consolidating all knowledge into a single model, Maestro trains a lightweight policy to dynamically compose ensembles of frozen expert models and a two-tier skill library, deciding at each step whether to invoke an external expert, which model-skill pair to select, and when to terminate. The policy is optimized via outcome-based RL, requiring no step-level supervision. We evaluate Maestro across ten representative multimodal benchmarks spanning mathematical reasoning, chart understanding, high-resolution perception, and domain-specific analysis. With only a 4B orchestrator, Maestro achieves an average accuracy of 70.1%, surpassing both GPT-5 (69.3%) and Gemini-2.5-Pro (68.7%). Crucially, the learned coordination policy generalizes to unseen models and skills without retraining: augmenting the registry with out-of-domain experts yields a 59.5% average on four challenging benchmarks, outperforming all closed-source baselines. Maestro further maintains high computational efficiency with low latency. The source code is available at https://github.com/jinyangwu/Maestro.