MetaAgent-X : Briser le plafond des systèmes multi-agents automatiques via l'apprentissage par renforcement de bout en bout

Résumé

Les systèmes multi-agents automatiques visent à instancier des flux de travail d'agents sans recourir à une orchestration manuelle ou fixe. Cependant, les approches automatiques existantes ne restent que partiellement adaptatives : elles effectuent soit une recherche sans entraînement au moment du test, soit optimisent le concepteur de niveau méta tout en gelant les agents d'exécution en aval, ce qui crée un plafond d'exécution figé et laisse inexploré l'apprentissage de bout en bout des modèles agentiques auto-conçus et auto-exécutés. Pour y remédier, nous introduisons MetaAgent-X, un cadre d'apprentissage par renforcement de bout en bout qui optimise conjointement la conception et l'exécution automatiques des systèmes multi-agents. MetaAgent-X permet la génération de scripts pour les systèmes multi-agents, la collecte de déploiements d'exécution et l'attribution de crédits pour les trajectoires du concepteur et de l'exécuteur. Afin de soutenir une optimisation stable et évolutive, nous proposons le déploiement hiérarchique concepteur-exécuteur et la co-évolution par étapes pour améliorer la stabilité de l'entraînement et révéler la dynamique de la co-évolution concepteur-exécuteur. MetaAgent-X surpasse systématiquement les références automatiques existantes en matière de systèmes multi-agents, avec des gains allant jusqu'à 21,7 %. Des ablations complètes montrent que tant le concepteur que l'exécuteur s'améliorent au cours de l'entraînement et que l'apprentissage efficace des systèmes multi-agents automatiques suit un processus de co-évolution par étapes. Ces résultats établissent les systèmes multi-agents automatiques entraînables de bout en bout comme un paradigme pratique pour construire des modèles agentiques auto-conçus et auto-exécutés.

English

Automatic multi-agent systems aim to instantiate agent workflows without relying on manually designed or fixed orchestration. However, existing automatic MAS approaches remain only partially adaptive: they either perform training-free test-time search or optimize the meta-level designer while keeping downstream execution agents frozen, which creating a frozen-executor ceiling and leaving the end-to-end training of self-designing and self-executing agentic models unexplored. To address this, we introduce MetaAgent-X, an end-to-end reinforcement learning framework that jointly optimizes automatic MAS design and execution. MetaAgent-X enables script-based MAS generation, execution rollout collection, and credit assignment for both designer and executor trajectories. To support stable and scalable optimization, we propose Executor Designer Hierarchical Rollout and Stagewise Co-evolution to improve training stability and expose the dynamics of designer-executor co-evolution. MetaAgent-X consistently outperforms existing automatic MAS baselines, achieving up to 21.7% gains. Comprehensive ablations show that both designer and executor improve throughout training, and that effective automatic MAS learning follows a stagewise co-evolution process. These results establish end-to-end trainable automatic MAS as a practical paradigm for building self-designing and self-executing agentic models.