MetaAgent-X: Durchbrechen der Obergrenze automatischer Multi-Agenten-Systeme via End-to-End Reinforcement Learning

Zusammenfassung

Automatische Multi-Agenten-Systeme (MAS) zielen darauf ab, Agenten-Workflows zu instanziieren, ohne auf manuell entworfene oder feste Orchestrierung angewiesen zu sein. Allerdings bleiben bestehende automatische MAS-Ansätze nur teilweise adaptiv: Sie führen entweder eine trainingsfreie Testzeitsuche durch oder optimieren den Meta-Designer, während nachgelagerte Ausführungsagenten eingefroren bleiben, was eine „Frozen-Executor“-Obergrenze schafft und das End-to-End-Training selbstentwerfender und selbstausführender agentischer Modelle unerforscht lässt. Um dies zu adressieren, führen wir MetaAgent-X ein, ein End-to-End-Verstärkungslern-Framework, das das automatische MAS-Design und die Ausführung gemeinsam optimiert. MetaAgent-X ermöglicht skriptbasierte MAS-Generierung, Sammlung von Ausführungs-Rollouts und Kreditzuweisung für sowohl Designer- als auch Ausführer-Trajektorien. Zur Unterstützung einer stabilen und skalierbaren Optimierung schlagen wir Executor Designer Hierarchical Rollout und Stagewise Co-Evolution vor, um die Trainingsstabilität zu verbessern und die Dynamik der Co-Evolution von Designer und Ausführer aufzudecken. MetaAgent-X übertrifft konsequent bestehende automatische MAS-Baselines und erzielt Verbesserungen von bis zu 21,7 %. Umfassende Ablationen zeigen, dass sowohl Designer als auch Ausführer im Verlauf des Trainings besser werden und dass effektives automatisches MAS-Lernen einem stufenweisen Co-Evolutionsprozess folgt. Diese Ergebnisse etablieren end-to-end trainierbare automatische MAS als praktisches Paradigma für den Aufbau selbstentwerfender und selbstausführender agentischer Modelle.

English

Automatic multi-agent systems aim to instantiate agent workflows without relying on manually designed or fixed orchestration. However, existing automatic MAS approaches remain only partially adaptive: they either perform training-free test-time search or optimize the meta-level designer while keeping downstream execution agents frozen, which creating a frozen-executor ceiling and leaving the end-to-end training of self-designing and self-executing agentic models unexplored. To address this, we introduce MetaAgent-X, an end-to-end reinforcement learning framework that jointly optimizes automatic MAS design and execution. MetaAgent-X enables script-based MAS generation, execution rollout collection, and credit assignment for both designer and executor trajectories. To support stable and scalable optimization, we propose Executor Designer Hierarchical Rollout and Stagewise Co-evolution to improve training stability and expose the dynamics of designer-executor co-evolution. MetaAgent-X consistently outperforms existing automatic MAS baselines, achieving up to 21.7% gains. Comprehensive ablations show that both designer and executor improve throughout training, and that effective automatic MAS learning follows a stagewise co-evolution process. These results establish end-to-end trainable automatic MAS as a practical paradigm for building self-designing and self-executing agentic models.