Maestro: Aprendizaje por Refuerzo para Orquestar Ensambles Jerárquicos de Habilidades de Modelo

Resumen

La proliferación de modelos de lenguaje de gran tamaño (LLMs) y habilidades modulares ha dotado a los agentes autónomos de capacidades cada vez más potentes. Los marcos existentes suelen depender de LLMs monolíticos y lógica fija para interactuar con estas habilidades, lo que genera un cuello de botella crítico: distintos LLMs ofrecen ventajas específicas en diversos ámbitos, pero los marcos actuales no explotan las fortalezas complementarias de modelos y habilidades, limitando así su rendimiento en tareas posteriores. En este artículo presentamos Maestro (Agente Multimodal para Orquestación Reforzada Dirigida a Habilidades de Expertos), un marco de orquestación basado en Aprendizaje por Refuerzo (RL) que reformula tareas multimodales heterogéneas como un proceso de toma de decisiones secuencial sobre un registro jerárquico de modelos y habilidades. En lugar de consolidar todo el conocimiento en un único modelo, Maestro entrena una política ligera para componer dinámicamente conjuntos de modelos expertos congelados y una biblioteca de habilidades de dos niveles, decidiendo en cada paso si invocar un experto externo, qué par modelo-habilidad seleccionar y cuándo terminar. La política se optimiza mediante RL basado en resultados, sin requerir supervisión a nivel de paso. Evaluamos Maestro en diez puntos de referencia multimodales representativos que abarcan razonamiento matemático, comprensión de gráficos, percepción de alta resolución y análisis de dominio específico. Con un orquestador de solo 4B, Maestro alcanza una precisión media del 70,1%, superando tanto a GPT-5 (69,3%) como a Gemini-2.5-Pro (68,7%). De manera crucial, la política de coordinación aprendida se generaliza a modelos y habilidades no vistos sin reentrenamiento: al aumentar el registro con expertos fuera del dominio se obtiene un promedio del 59,5% en cuatro benchmarks desafiantes, superando todas las líneas base de código cerrado. Maestro mantiene además una alta eficiencia computacional con baja latencia. El código fuente está disponible en https://github.com/jinyangwu/Maestro.

English

The proliferation of large language models (LLMs) and modular skills has endowed autonomous agents with increasingly powerful capabilities. Existing frameworks typically rely on monolithic LLMs and fixed logic to interface with these skills. This gives rise to a critical bottleneck: different LLMs offer distinct advantages across diverse domains, yet current frameworks fail to exploit the complementary strengths of models and skills, thereby limiting their performance on downstream tasks. In this paper, we present Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration), a Reinforcement Learning (RL)-driven orchestration framework that reframes heterogeneous multimodal tasks as a sequential decision-making process over a hierarchical model-skill registry. Rather than consolidating all knowledge into a single model, Maestro trains a lightweight policy to dynamically compose ensembles of frozen expert models and a two-tier skill library, deciding at each step whether to invoke an external expert, which model-skill pair to select, and when to terminate. The policy is optimized via outcome-based RL, requiring no step-level supervision. We evaluate Maestro across ten representative multimodal benchmarks spanning mathematical reasoning, chart understanding, high-resolution perception, and domain-specific analysis. With only a 4B orchestrator, Maestro achieves an average accuracy of 70.1%, surpassing both GPT-5 (69.3%) and Gemini-2.5-Pro (68.7%). Crucially, the learned coordination policy generalizes to unseen models and skills without retraining: augmenting the registry with out-of-domain experts yields a 59.5% average on four challenging benchmarks, outperforming all closed-source baselines. Maestro further maintains high computational efficiency with low latency. The source code is available at https://github.com/jinyangwu/Maestro.