Agent-World: Het Opschalen van Real-World Omgevingssynthese voor de Evolutie van Algemene Agentintelligentie
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
April 20, 2026
Auteurs: Guanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou
cs.AI
Samenvatting
Grote taalmodellen worden in toenemende mate verwacht te functioneren als algemene agenten die interacteren met externe, stateful tool-omgevingen. Het Model Context Protocol (MCP) en bredere agentvaardigheden bieden een uniforme interface voor het verbinden van agenten met schaalbare real-world diensten, maar de training van robuuste agenten wordt nog steeds beperkt door een gebrek aan realistische omgevingen en principiële mechanismen voor levenslang leren. In dit artikel presenteren we Agent-World, een zelf-evoluerende trainingsarena voor het bevorderen van algemene agentintelligentie via schaalbare omgevingen. Agent-World heeft twee hoofdcomponenten: (1) Agentic Environment-Task Discovery, die autonoom topic-gebonden databases en uitvoerbare tool-ecosystemen verkent uit duizenden real-world omgevingsthema's en verifieerbare taken synthetiseert met controleerbare moeilijkheidsgraad; en (2) Continue Zelf-Evoluerende Agent Training, die multi-omgeving reinforcement learning combineert met een zelf-evoluerende agentarena die automatisch capaciteitshiaten identificeert via dynamische taaksynthese en gericht leren aanstuurt, waardoor co-evolutie van agentbeleid en omgevingen mogelijk wordt. Over 23 uitdagende agentbenchmarks heen presteren Agent-World-8B en 14B consistent beter dan sterke propriëtaire modellen en omgeving-schaleringsbaselines. Verdere analyses onthullen schaalverbanden met betrekking tot omgevingsdiversiteit en zelf-evolutierondes, wat inzichten biedt voor het bouwen van algemene agentintelligentie.
English
Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present Agent-World, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.