Maestro: Aprendizagem por Reforço para Orquestrar Conjuntos Hierárquicos de Modelos e Habilidades

Resumo

A proliferação de modelos de linguagem de grande porte (LLMs) e habilidades modulares tem dotado agentes autônomos de capacidades cada vez mais poderosas. Frameworks existentes geralmente dependem de LLMs monolíticos e lógica fixa para fazer interface com essas habilidades. Isso dá origem a um gargalo crítico: diferentes LLMs oferecem vantagens distintas em diversos domínios, mas os frameworks atuais não exploram os pontos fortes complementares dos modelos e habilidades, limitando assim seu desempenho em tarefas downstream. Neste artigo, apresentamos o Maestro (Agente Multimodal para Orquestração Reforçada Direcionada a Especialistas e Habilidades), um framework de orquestração orientado por Aprendizagem por Reforço (RL) que reformula tarefas multimodais heterogêneas como um processo de tomada de decisão sequencial sobre um registro hierárquico de modelos e habilidades. Em vez de consolidar todo o conhecimento em um único modelo, o Maestro treina uma política leve para compor dinamicamente conjuntos de modelos especialistas congelados e uma biblioteca de habilidades de dois níveis, decidindo a cada passo se deve invocar um especialista externo, qual par modelo-habilidade selecionar e quando encerrar. A política é otimizada via RL baseada em resultados, sem exigir supervisão em nível de passo. Avaliamos o Maestro em dez benchmarks multimodais representativos abrangendo raciocínio matemático, compreensão de gráficos, percepção de alta resolução e análise específica de domínio. Com apenas um orquestrador de 4B, o Maestro alcança uma precisão média de 70,1%, superando tanto o GPT-5 (69,3%) quanto o Gemini-2.5-Pro (68,7%). Crucialmente, a política de coordenação aprendida generaliza para modelos e habilidades não vistos sem retreinamento: aumentar o registro com especialistas fora do domínio resulta em uma média de 59,5% em quatro benchmarks desafiadores, superando todas as baselines de código fechado. O Maestro ainda mantém alta eficiência computacional com baixa latência. O código fonte está disponível em https://github.com/jinyangwu/Maestro.

English

The proliferation of large language models (LLMs) and modular skills has endowed autonomous agents with increasingly powerful capabilities. Existing frameworks typically rely on monolithic LLMs and fixed logic to interface with these skills. This gives rise to a critical bottleneck: different LLMs offer distinct advantages across diverse domains, yet current frameworks fail to exploit the complementary strengths of models and skills, thereby limiting their performance on downstream tasks. In this paper, we present Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration), a Reinforcement Learning (RL)-driven orchestration framework that reframes heterogeneous multimodal tasks as a sequential decision-making process over a hierarchical model-skill registry. Rather than consolidating all knowledge into a single model, Maestro trains a lightweight policy to dynamically compose ensembles of frozen expert models and a two-tier skill library, deciding at each step whether to invoke an external expert, which model-skill pair to select, and when to terminate. The policy is optimized via outcome-based RL, requiring no step-level supervision. We evaluate Maestro across ten representative multimodal benchmarks spanning mathematical reasoning, chart understanding, high-resolution perception, and domain-specific analysis. With only a 4B orchestrator, Maestro achieves an average accuracy of 70.1%, surpassing both GPT-5 (69.3%) and Gemini-2.5-Pro (68.7%). Crucially, the learned coordination policy generalizes to unseen models and skills without retraining: augmenting the registry with out-of-domain experts yields a 59.5% average on four challenging benchmarks, outperforming all closed-source baselines. Maestro further maintains high computational efficiency with low latency. The source code is available at https://github.com/jinyangwu/Maestro.