ChatPaper.aiChatPaper

MetaAgent-X: 종단간 강화 학습을 통한 자동 다중 에이전트 시스템의 한계 돌파

MetaAgent-X : Breaking the Ceiling of Automatic Multi-Agent Systems via End-to-End Reinforcement Learning

May 14, 2026
저자: Yaolun Zhang, Yujie Zhao, Nan Wang, Yiran Wu, Jiayu Chang, Yizhao Chen, Qingyun Wu, Jishen Zhao, Huazheng Wang
cs.AI

초록

자동 다중 에이전트 시스템은 수동으로 설계되거나 고정된 오케스트레이션에 의존하지 않고 에이전트 워크플로우를 인스턴스화하는 것을 목표로 한다. 그러나 기존의 자동 MAS 접근법은 부분적으로만 적응적이다. 즉, 훈련 없이 테스트 시간 탐색을 수행하거나, 하위 실행 에이전트를 고정시킨 상태에서 메타 수준 설계자를 최적화하여, 고정된 실행자 한계를 초래하고 자기 설계 및 자기 실행 에이전트 모델의 종단 간 훈련을 탐구하지 않은 상태로 남겨둔다. 이를 해결하기 위해, 우리는 자동 MAS 설계와 실행을 공동으로 최적화하는 종단 간 강화 학습 프레임워크인 MetaAgent-X를 소개한다. MetaAgent-X는 스크립트 기반 MAS 생성, 실행 롤아웃 수집, 그리고 설계자와 실행자 궤적 모두에 대한 신용 할당을 가능하게 한다. 안정적이고 확장 가능한 최적화를 지원하기 위해, 우리는 훈련 안정성을 개선하고 설계자-실행자 공진화의 동역학을 드러내는 실행자-설계자 계층적 롤아웃 및 단계별 공진화를 제안한다. MetaAgent-X는 기존의 자동 MAS 기준선을 일관되게 능가하여 최대 21.7%의 성능 향상을 달성한다. 포괄적인 절제 연구는 설계자와 실행자 모두 훈련 과정 전반에 걸쳐 개선되며, 효과적인 자동 MAS 학습이 단계별 공진화 과정을 따른다는 것을 보여준다. 이러한 결과는 종단 간 훈련 가능한 자동 MAS를 자기 설계 및 자기 실행 에이전트 모델을 구축하기 위한 실용적인 패러다임으로 확립한다.
English
Automatic multi-agent systems aim to instantiate agent workflows without relying on manually designed or fixed orchestration. However, existing automatic MAS approaches remain only partially adaptive: they either perform training-free test-time search or optimize the meta-level designer while keeping downstream execution agents frozen, which creating a frozen-executor ceiling and leaving the end-to-end training of self-designing and self-executing agentic models unexplored. To address this, we introduce MetaAgent-X, an end-to-end reinforcement learning framework that jointly optimizes automatic MAS design and execution. MetaAgent-X enables script-based MAS generation, execution rollout collection, and credit assignment for both designer and executor trajectories. To support stable and scalable optimization, we propose Executor Designer Hierarchical Rollout and Stagewise Co-evolution to improve training stability and expose the dynamics of designer-executor co-evolution. MetaAgent-X consistently outperforms existing automatic MAS baselines, achieving up to 21.7% gains. Comprehensive ablations show that both designer and executor improve throughout training, and that effective automatic MAS learning follows a stagewise co-evolution process. These results establish end-to-end trainable automatic MAS as a practical paradigm for building self-designing and self-executing agentic models.