MetaAgent-X: Het doorbreken van het plafond van automatische multi-agentsystemen via end-to-end reinforcement learning

Samenvatting

Automatische multi-agentsystemen (MAS) streven ernaar agentworkflows te instantiëren zonder afhankelijk te zijn van handmatig ontworpen of vaste orkestratie. Bestaande automatische MAS-benaderingen blijven echter slechts gedeeltelijk adaptief: ze voeren ofwel training-vrije testtijdzoekopdrachten uit, ofwel optimaliseren de meta-ontwerper terwijl stroomafwaartse uitvoeringsagenten bevroren blijven, wat een plafond van bevroren uitvoerders creëert en de end-to-end training van zelfontwerpende en zelfuitvoerende agentische modellen onontgonnen laat. Om dit aan te pakken introduceren we MetaAgent-X, een end-to-end reinforcement learning raamwerk dat automatisch MAS-ontwerp en -uitvoering gezamenlijk optimaliseert. MetaAgent-X maakt scriptgebaseerde MAS-generatie, verzameling van uitvoeringsrollouts en krediettoewijzing voor zowel ontwerper- als uitvoerderstrajecten mogelijk. Om stabiele en schaalbare optimalisatie te ondersteunen, stellen we Executor Designer Hierarchical Rollout en Stagewise Co-evolution voor om de trainingsstabiliteit te verbeteren en de dynamiek van ontwerper-uitvoerder co-evolutie bloot te leggen. MetaAgent-X presteert consistent beter dan bestaande automatische MAS-baselines, met winsten tot 21,7%. Uitgebreide ablatiestudies tonen aan dat zowel ontwerper als uitvoerder verbeteren gedurende de training, en dat effectief automatisch MAS-leren een stapsgewijs co-evolutieproces volgt. Deze resultaten vestigen end-to-end trainbare automatische MAS als een praktisch paradigma voor het bouwen van zelfontwerpende en zelfuitvoerende agentische modellen.

English

Automatic multi-agent systems aim to instantiate agent workflows without relying on manually designed or fixed orchestration. However, existing automatic MAS approaches remain only partially adaptive: they either perform training-free test-time search or optimize the meta-level designer while keeping downstream execution agents frozen, which creating a frozen-executor ceiling and leaving the end-to-end training of self-designing and self-executing agentic models unexplored. To address this, we introduce MetaAgent-X, an end-to-end reinforcement learning framework that jointly optimizes automatic MAS design and execution. MetaAgent-X enables script-based MAS generation, execution rollout collection, and credit assignment for both designer and executor trajectories. To support stable and scalable optimization, we propose Executor Designer Hierarchical Rollout and Stagewise Co-evolution to improve training stability and expose the dynamics of designer-executor co-evolution. MetaAgent-X consistently outperforms existing automatic MAS baselines, achieving up to 21.7% gains. Comprehensive ablations show that both designer and executor improve throughout training, and that effective automatic MAS learning follows a stagewise co-evolution process. These results establish end-to-end trainable automatic MAS as a practical paradigm for building self-designing and self-executing agentic models.