ChatPaper.aiChatPaper

エージェント・ワールド:進化する汎用エージェント知能のための実世界環境合成のスケーリング

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

April 20, 2026
著者: Guanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou
cs.AI

要旨

大規模言語モデルは、外部の状態を持つツール環境と相互作用する汎用エージェントとして機能することがますます期待されている。モデルコンテキストプロトコル(MCP)と広範なエージェントスキルは、エージェントとスケーラブルな実世界サービスを接続する統一インターフェースを提供するが、堅牢なエージェントの訓練は、現実的な環境の不足と生涯学習の体系的なメカニズムによって制限されている。本論文では、スケーラブルな環境を通じて汎用エージェント知能を進化させる自己進化型訓練環境「Agent-World」を提案する。Agent-Worldは主に2つの構成要素から成る:(1)トピック整合型データベースと実行可能なツールエコシステムを数千の実世界環境テーマから自律的に探索し、検証可能な難易度制御タスクを合成する「エージェント環境・タスク発見機構」、(2)複数環境強化学習と、動的タスク合成によって能力ギャップを自動特定し標的学習を促進する自己進化型エージェントアリーナを組み合わせた「継続的自己進化エージェント訓練」。23の挑戦的エージェントベンチマークにおいて、Agent-World-8Bおよび14Bは強力なプロプライエタリモデルと環境スケーリングベースラインを一貫して上回った。さらに詳細分析により、環境多様性と自己進化ラウンドに関連するスケーリング特性を明らかにし、汎用エージェント知能構築への示唆を提供する。
English
Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present Agent-World, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.
PDF663April 22, 2026