Maestro: обучение с подкреплением для оркестровки иерархических ансамблей моделей-навыков

Аннотация

Распространение больших языковых моделей (БЯМ) и модульных навыков наделило автономных агентов всё более мощными возможностями. Существующие фреймворки, как правило, полагаются на монолитные БЯМ и фиксированную логику для взаимодействия с этими навыками. Это создаёт критическое узкое место: разные БЯМ обладают различными преимуществами в разных областях, однако текущие фреймворки не используют взаимодополняющие сильные стороны моделей и навыков, тем самым ограничивая их производительность в решении прикладных задач. В данной работе мы представляем Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration) — фреймворк оркестрации на основе обучения с подкреплением (RL), который переформулирует гетерогенные мультимодальные задачи как процесс последовательного принятия решений над иерархическим реестром моделей и навыков. Вместо объединения всех знаний в одной модели Maestro обучает лёгкую политику для динамического составления ансамблей из замороженных экспертных моделей и двухуровневой библиотеки навыков, решая на каждом шаге, следует ли вызывать внешнего эксперта, какую пару модель-навык выбрать и когда завершить процесс. Политика оптимизируется с помощью RL на основе результатов, не требуя пошагового контроля. Мы оцениваем Maestro на десяти репрезентативных мультимодальных бенчмарках, охватывающих математические рассуждения, понимание диаграмм, восприятие с высоким разрешением и предметно-ориентированный анализ. С оркестратором размером всего 4B Maestro достигает средней точности 70.1%, превосходя как GPT-5 (69.3%), так и Gemini-2.5-Pro (68.7%). Важно отметить, что изученная политика координации обобщается на невидимые ранее модели и навыки без переобучения: добавление в реестр экспертов из других областей даёт среднюю точность 59.5% на четырёх сложных бенчмарках, превосходя все закрытые базовые решения. Maestro также сохраняет высокую вычислительную эффективность при низкой задержке. Исходный код доступен по адресу https://github.com/jinyangwu/Maestro.

English

The proliferation of large language models (LLMs) and modular skills has endowed autonomous agents with increasingly powerful capabilities. Existing frameworks typically rely on monolithic LLMs and fixed logic to interface with these skills. This gives rise to a critical bottleneck: different LLMs offer distinct advantages across diverse domains, yet current frameworks fail to exploit the complementary strengths of models and skills, thereby limiting their performance on downstream tasks. In this paper, we present Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration), a Reinforcement Learning (RL)-driven orchestration framework that reframes heterogeneous multimodal tasks as a sequential decision-making process over a hierarchical model-skill registry. Rather than consolidating all knowledge into a single model, Maestro trains a lightweight policy to dynamically compose ensembles of frozen expert models and a two-tier skill library, deciding at each step whether to invoke an external expert, which model-skill pair to select, and when to terminate. The policy is optimized via outcome-based RL, requiring no step-level supervision. We evaluate Maestro across ten representative multimodal benchmarks spanning mathematical reasoning, chart understanding, high-resolution perception, and domain-specific analysis. With only a 4B orchestrator, Maestro achieves an average accuracy of 70.1%, surpassing both GPT-5 (69.3%) and Gemini-2.5-Pro (68.7%). Crucially, the learned coordination policy generalizes to unseen models and skills without retraining: augmenting the registry with out-of-domain experts yields a 59.5% average on four challenging benchmarks, outperforming all closed-source baselines. Maestro further maintains high computational efficiency with low latency. The source code is available at https://github.com/jinyangwu/Maestro.