MetaAgent-X : Преодоление потолка автоматических мультиагентных систем посредством сквозного обучения с подкреплением

Аннотация

Автоматические мультиагентные системы (MAC) направлены на реализацию агентных рабочих процессов без использования вручную спроектированной или фиксированной оркестрации. Однако существующие подходы к автоматическим MAC остаются лишь частично адаптивными: они либо выполняют поиск на этапе тестирования без обучения, либо оптимизируют дизайнера метауровня, сохраняя замороженными исполнительные агенты нижележащего уровня, что создаёт потолок замороженного исполнителя и оставляет неисследованным сквозное обучение самопроектирующихся и самоисполняющихся агентных моделей. Для решения этой проблемы мы представляем MetaAgent‑X — фреймворк сквозного обучения с подкреплением, который совместно оптимизирует автоматическое проектирование и выполнение MAC. MetaAgent‑X обеспечивает генерацию MAC на основе скриптов, сбор развертываний выполнения и распределение кредита как для траекторий дизайнера, так и для траекторий исполнителя. Для поддержки стабильной и масштабируемой оптимизации мы предлагаем иерархическое развертывание исполнителя и дизайнера и поэтапную коэволюцию, которые улучшают стабильность обучения и раскрывают динамику коэволюции дизайнера и исполнителя. MetaAgent‑X стабильно превосходит существующие базовые автоматические MAC, достигая прироста до 21,7%. Комплексные абляции показывают, что как дизайнер, так и исполнитель улучшаются на протяжении обучения, а эффективное обучение автоматических MAC следует процессу поэтапной коэволюции. Эти результаты утверждают сквозное обучаемое автоматическое MAC как практическую парадигму для построения самопроектирующихся и самоисполняющихся агентных моделей.

English

Automatic multi-agent systems aim to instantiate agent workflows without relying on manually designed or fixed orchestration. However, existing automatic MAS approaches remain only partially adaptive: they either perform training-free test-time search or optimize the meta-level designer while keeping downstream execution agents frozen, which creating a frozen-executor ceiling and leaving the end-to-end training of self-designing and self-executing agentic models unexplored. To address this, we introduce MetaAgent-X, an end-to-end reinforcement learning framework that jointly optimizes automatic MAS design and execution. MetaAgent-X enables script-based MAS generation, execution rollout collection, and credit assignment for both designer and executor trajectories. To support stable and scalable optimization, we propose Executor Designer Hierarchical Rollout and Stagewise Co-evolution to improve training stability and expose the dynamics of designer-executor co-evolution. MetaAgent-X consistently outperforms existing automatic MAS baselines, achieving up to 21.7% gains. Comprehensive ablations show that both designer and executor improve throughout training, and that effective automatic MAS learning follows a stagewise co-evolution process. These results establish end-to-end trainable automatic MAS as a practical paradigm for building self-designing and self-executing agentic models.