MetaAgent-X: Quebrando o Teto dos Sistemas Multiagente Automáticos via Aprendizado por Reforço de Ponta a Ponta

Resumo

Sistemas multiagente automáticos visam instanciar fluxos de trabalho de agentes sem depender de orquestração projetada manualmente ou fixa. No entanto, as abordagens automáticas de MAS existentes permanecem apenas parcialmente adaptativas: elas realizam busca em tempo de teste sem treinamento ou otimizam o designer de nível meta enquanto mantêm os agentes executores a jusante congelados, o que cria um teto do executor congelado e deixa inexplorado o treinamento fim a fim de modelos agentes autoprojetáveis e autoexecutáveis. Para abordar isso, apresentamos o MetaAgent-X, uma estrutura de aprendizado por reforço fim a fim que otimiza conjuntamente o design automático de MAS e a execução. O MetaAgent-X possibilita geração de MAS baseada em script, coleta de rollouts de execução e atribuição de crédito para as trajetórias do designer e do executor. Para suportar uma otimização estável e escalável, propomos o Rollout Hierárquico Designer-Executor e a Coevolução por Estágios para melhorar a estabilidade do treinamento e expor a dinâmica da coevolução designer-executor. O MetaAgent-X supera consistentemente as linhas de base automáticas de MAS existentes, alcançando ganhos de até 21,7%. Ablações abrangentes mostram que tanto o designer quanto o executor melhoram ao longo do treinamento, e que o aprendizado automático eficaz de MAS segue um processo de coevolução por estágios. Esses resultados estabelecem o MAS automático treinável fim a fim como um paradigma prático para construir modelos agentes autoprojetáveis e autoexecutáveis.

English

Automatic multi-agent systems aim to instantiate agent workflows without relying on manually designed or fixed orchestration. However, existing automatic MAS approaches remain only partially adaptive: they either perform training-free test-time search or optimize the meta-level designer while keeping downstream execution agents frozen, which creating a frozen-executor ceiling and leaving the end-to-end training of self-designing and self-executing agentic models unexplored. To address this, we introduce MetaAgent-X, an end-to-end reinforcement learning framework that jointly optimizes automatic MAS design and execution. MetaAgent-X enables script-based MAS generation, execution rollout collection, and credit assignment for both designer and executor trajectories. To support stable and scalable optimization, we propose Executor Designer Hierarchical Rollout and Stagewise Co-evolution to improve training stability and expose the dynamics of designer-executor co-evolution. MetaAgent-X consistently outperforms existing automatic MAS baselines, achieving up to 21.7% gains. Comprehensive ablations show that both designer and executor improve throughout training, and that effective automatic MAS learning follows a stagewise co-evolution process. These results establish end-to-end trainable automatic MAS as a practical paradigm for building self-designing and self-executing agentic models.