에이전트-월드: 진화하는 범용 에이전트 지능을 위한 실세계 환경 합성 확장
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
April 20, 2026
저자: Guanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou
cs.AI
초록
대규모 언어 모델은 외부의 상태 유지 도구 환경과 상호작용하는 범용 에이전트로서의 역할이 점점 더 기대되고 있다. 모델 컨텍스트 프로토콜(MCP)과 광범위한 에이전트 기술은 에이전트를 확장 가능한 실세계 서비스에 연결하기 위한 통일된 인터페이스를 제공하나, 강력한 에이전트 훈련은 현실적인 환경과 평생 학습을 위한 원칙적인 메커니즘의 부족으로 제한받고 있다. 본 논문에서는 확장 가능한 환경을 통해 범용 에이전트 지능을 향상시키기 위한 자가 진화 훈련 아레나인 에이전트-월드(Agent-World)를 제시한다. 에이전트-월드는 두 가지 주요 구성 요소를 갖는다: (1) 주제 정렬 데이터베이스와 수천 가지 실세계 환경 테마에서 실행 가능한 도구 생태계를 자율적으로 탐색하고 검증 가능한 작업을 난이도 조절과 함께 합성하는 에이전트 환경-작업 발견; (2) 다중 환경 강화 학습과 동적 작업 합성을 통해 능력 격차를 자동으로 식별하고 표적 학습을 주도하는 자가 진화 에이전트 아레나를 결합하여 에이전트 정책과 환경의 공동 진화를 가능하게 하는 지속적 자가 진화 에이전트 훈련. 23개의 도전적인 에이전트 벤치마크 전반에 걸쳐, 에이전트-월드-8B 및 14B는 강력한 독점 모델 및 환경 확장 기준선을 꾸준히 능가했다. 추가 분석은 환경 다양성 및 자가 진화 라운드와 관련된 규모 확장 경향을 보여주며, 범용 에이전트 지능 구축을 위한 통찰을 제공한다.
English
Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present Agent-World, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.