MetaAgent-X: Superando el techo de los Sistemas Multi-Agente Automáticos mediante Aprendizaje por Refuerzo de Extremo a Extremo

Resumen

Los sistemas multiagente automáticos buscan instanciar flujos de trabajo de agentes sin depender de una orquestación diseñada manualmente o fija. Sin embargo, los enfoques automáticos existentes para sistemas multiagente siguen siendo solo parcialmente adaptativos: o bien realizan búsqueda en tiempo de prueba sin entrenamiento, o bien optimizan el diseñador a nivel meta mientras mantienen congelados los agentes ejecutores descendentes, lo que crea un techo de ejecutor congelado y deja inexplorado el entrenamiento de extremo a extremo de modelos agentivos que se autodiseñan y auto-ejecutan. Para abordar esto, presentamos MetaAgent-X, un marco de aprendizaje por refuerzo de extremo a extremo que optimiza conjuntamente el diseño y la ejecución automática de sistemas multiagente. MetaAgent-X permite la generación de sistemas multiagente basados en scripts, la recopilación de rollouts de ejecución y la asignación de créditos tanto para las trayectorias del diseñador como del ejecutor. Para respaldar una optimización estable y escalable, proponemos el Despliegue Jerárquico Ejecutor-Diseñador y la Coevolución por Etapas para mejorar la estabilidad del entrenamiento y exponer la dinámica de la coevolución diseñador-ejecutor. MetaAgent-X supera consistentemente a las líneas base automáticas existentes de sistemas multiagente, logrando mejoras de hasta un 21.7%. Las ablaciones exhaustivas muestran que tanto el diseñador como el ejecutor mejoran a lo largo del entrenamiento, y que el aprendizaje efectivo de sistemas multiagente automáticos sigue un proceso de coevolución por etapas. Estos resultados establecen los sistemas multiagente automáticos entrenables de extremo a extremo como un paradigma práctico para construir modelos agentivos que se autodiseñan y auto-ejecutan.

English

Automatic multi-agent systems aim to instantiate agent workflows without relying on manually designed or fixed orchestration. However, existing automatic MAS approaches remain only partially adaptive: they either perform training-free test-time search or optimize the meta-level designer while keeping downstream execution agents frozen, which creating a frozen-executor ceiling and leaving the end-to-end training of self-designing and self-executing agentic models unexplored. To address this, we introduce MetaAgent-X, an end-to-end reinforcement learning framework that jointly optimizes automatic MAS design and execution. MetaAgent-X enables script-based MAS generation, execution rollout collection, and credit assignment for both designer and executor trajectories. To support stable and scalable optimization, we propose Executor Designer Hierarchical Rollout and Stagewise Co-evolution to improve training stability and expose the dynamics of designer-executor co-evolution. MetaAgent-X consistently outperforms existing automatic MAS baselines, achieving up to 21.7% gains. Comprehensive ablations show that both designer and executor improve throughout training, and that effective automatic MAS learning follows a stagewise co-evolution process. These results establish end-to-end trainable automatic MAS as a practical paradigm for building self-designing and self-executing agentic models.