ChatPaper.aiChatPaper

MetaAgent-X: Superando el techo de los Sistemas Multi-Agente Automáticos mediante Aprendizaje por Refuerzo de Extremo a Extremo

MetaAgent-X : Breaking the Ceiling of Automatic Multi-Agent Systems via End-to-End Reinforcement Learning

May 14, 2026
Autores: Yaolun Zhang, Yujie Zhao, Nan Wang, Yiran Wu, Jiayu Chang, Yizhao Chen, Qingyun Wu, Jishen Zhao, Huazheng Wang
cs.AI

Resumen

Los sistemas multiagente automáticos buscan instanciar flujos de trabajo de agentes sin depender de una orquestación diseñada manualmente o fija. Sin embargo, los enfoques automáticos existentes para sistemas multiagente siguen siendo solo parcialmente adaptativos: o bien realizan búsqueda en tiempo de prueba sin entrenamiento, o bien optimizan el diseñador a nivel meta mientras mantienen congelados los agentes ejecutores descendentes, lo que crea un techo de ejecutor congelado y deja inexplorado el entrenamiento de extremo a extremo de modelos agentivos que se autodiseñan y auto-ejecutan. Para abordar esto, presentamos MetaAgent-X, un marco de aprendizaje por refuerzo de extremo a extremo que optimiza conjuntamente el diseño y la ejecución automática de sistemas multiagente. MetaAgent-X permite la generación de sistemas multiagente basados en scripts, la recopilación de rollouts de ejecución y la asignación de créditos tanto para las trayectorias del diseñador como del ejecutor. Para respaldar una optimización estable y escalable, proponemos el Despliegue Jerárquico Ejecutor-Diseñador y la Coevolución por Etapas para mejorar la estabilidad del entrenamiento y exponer la dinámica de la coevolución diseñador-ejecutor. MetaAgent-X supera consistentemente a las líneas base automáticas existentes de sistemas multiagente, logrando mejoras de hasta un 21.7%. Las ablaciones exhaustivas muestran que tanto el diseñador como el ejecutor mejoran a lo largo del entrenamiento, y que el aprendizaje efectivo de sistemas multiagente automáticos sigue un proceso de coevolución por etapas. Estos resultados establecen los sistemas multiagente automáticos entrenables de extremo a extremo como un paradigma práctico para construir modelos agentivos que se autodiseñan y auto-ejecutan.
English
Automatic multi-agent systems aim to instantiate agent workflows without relying on manually designed or fixed orchestration. However, existing automatic MAS approaches remain only partially adaptive: they either perform training-free test-time search or optimize the meta-level designer while keeping downstream execution agents frozen, which creating a frozen-executor ceiling and leaving the end-to-end training of self-designing and self-executing agentic models unexplored. To address this, we introduce MetaAgent-X, an end-to-end reinforcement learning framework that jointly optimizes automatic MAS design and execution. MetaAgent-X enables script-based MAS generation, execution rollout collection, and credit assignment for both designer and executor trajectories. To support stable and scalable optimization, we propose Executor Designer Hierarchical Rollout and Stagewise Co-evolution to improve training stability and expose the dynamics of designer-executor co-evolution. MetaAgent-X consistently outperforms existing automatic MAS baselines, achieving up to 21.7% gains. Comprehensive ablations show that both designer and executor improve throughout training, and that effective automatic MAS learning follows a stagewise co-evolution process. These results establish end-to-end trainable automatic MAS as a practical paradigm for building self-designing and self-executing agentic models.