Agent-World: Scalabilità della Sintesi di Ambienti Reali per l'Evoluzione dell'Intelligenza Agente Generale
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
April 20, 2026
Autori: Guanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou
cs.AI
Abstract
I modelli linguistici di grandi dimensioni sono sempre più destinati a fungere da agenti a scopo generale che interagiscono con ambienti strumentali esterni e dotati di stato. Il Model Context Protocol (MCP) e le più ampie competenze agent-based offrono un'interfaccia unificata per collegare gli agenti a servizi scalabili del mondo reale, ma l'addestramento di agenti robusti rimane limitato dalla mancanza di ambienti realistici e meccanismi principiati per l'apprendimento continuo. In questo articolo, presentiamo Agent-World, un'arena di addestramento auto-evolutiva per far progredire l'intelligenza agenziale generale attraverso ambienti scalabili. Agent-World ha due componenti principali: (1) l'Agentic Environment-Task Discovery, che esplora autonomamente database allineati a tematiche ed ecosistemi di strumenti eseguibili derivati da migliaia di temi ambientali del mondo reale, sintetizzando compiti verificabili con difficoltà controllabile; e (2) il Continuous Self-Evolving Agent Training, che combina l'apprendimento per rinforzo multi-ambiente con un'arena agenziale auto-evolutiva che identifica automaticamente le lacune nelle capacità attraverso la sintesi dinamica di compiti e guida un apprendimento mirato, consentendo la co-evoluzione delle politiche degli agenti e degli ambienti. Su 23 benchmark agenziali impegnativi, Agent-World-8B e 14B superano costantemente modelli proprietari avanzati e baseline di scalabilità ambientale. Ulteriori analisi rivelano trend di scalabilità in relazione alla diversità ambientale e ai cicli di auto-evoluzione, offrendo spunti per la costruzione di un'intelligenza agenziale generale.
English
Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present Agent-World, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.