MetaAgent-X : Преодоление потолка автоматических мультиагентных систем посредством сквозного обучения с подкреплением
MetaAgent-X : Breaking the Ceiling of Automatic Multi-Agent Systems via End-to-End Reinforcement Learning
May 14, 2026
Авторы: Yaolun Zhang, Yujie Zhao, Nan Wang, Yiran Wu, Jiayu Chang, Yizhao Chen, Qingyun Wu, Jishen Zhao, Huazheng Wang
cs.AI
Аннотация
Автоматические мультиагентные системы (MAC) направлены на реализацию агентных рабочих процессов без использования вручную спроектированной или фиксированной оркестрации. Однако существующие подходы к автоматическим MAC остаются лишь частично адаптивными: они либо выполняют поиск на этапе тестирования без обучения, либо оптимизируют дизайнера метауровня, сохраняя замороженными исполнительные агенты нижележащего уровня, что создаёт потолок замороженного исполнителя и оставляет неисследованным сквозное обучение самопроектирующихся и самоисполняющихся агентных моделей. Для решения этой проблемы мы представляем MetaAgent‑X — фреймворк сквозного обучения с подкреплением, который совместно оптимизирует автоматическое проектирование и выполнение MAC. MetaAgent‑X обеспечивает генерацию MAC на основе скриптов, сбор развертываний выполнения и распределение кредита как для траекторий дизайнера, так и для траекторий исполнителя. Для поддержки стабильной и масштабируемой оптимизации мы предлагаем иерархическое развертывание исполнителя и дизайнера и поэтапную коэволюцию, которые улучшают стабильность обучения и раскрывают динамику коэволюции дизайнера и исполнителя. MetaAgent‑X стабильно превосходит существующие базовые автоматические MAC, достигая прироста до 21,7%. Комплексные абляции показывают, что как дизайнер, так и исполнитель улучшаются на протяжении обучения, а эффективное обучение автоматических MAC следует процессу поэтапной коэволюции. Эти результаты утверждают сквозное обучаемое автоматическое MAC как практическую парадигму для построения самопроектирующихся и самоисполняющихся агентных моделей.
English
Automatic multi-agent systems aim to instantiate agent workflows without relying on manually designed or fixed orchestration. However, existing automatic MAS approaches remain only partially adaptive: they either perform training-free test-time search or optimize the meta-level designer while keeping downstream execution agents frozen, which creating a frozen-executor ceiling and leaving the end-to-end training of self-designing and self-executing agentic models unexplored. To address this, we introduce MetaAgent-X, an end-to-end reinforcement learning framework that jointly optimizes automatic MAS design and execution. MetaAgent-X enables script-based MAS generation, execution rollout collection, and credit assignment for both designer and executor trajectories. To support stable and scalable optimization, we propose Executor Designer Hierarchical Rollout and Stagewise Co-evolution to improve training stability and expose the dynamics of designer-executor co-evolution. MetaAgent-X consistently outperforms existing automatic MAS baselines, achieving up to 21.7% gains. Comprehensive ablations show that both designer and executor improve throughout training, and that effective automatic MAS learning follows a stagewise co-evolution process. These results establish end-to-end trainable automatic MAS as a practical paradigm for building self-designing and self-executing agentic models.