Agent-World: Scalabilità della Sintesi di Ambienti Reali per l'Evoluzione dell'Intelligenza Agente Generale

Abstract

I modelli linguistici di grandi dimensioni sono sempre più destinati a fungere da agenti a scopo generale che interagiscono con ambienti strumentali esterni e dotati di stato. Il Model Context Protocol (MCP) e le più ampie competenze agent-based offrono un'interfaccia unificata per collegare gli agenti a servizi scalabili del mondo reale, ma l'addestramento di agenti robusti rimane limitato dalla mancanza di ambienti realistici e meccanismi principiati per l'apprendimento continuo. In questo articolo, presentiamo Agent-World, un'arena di addestramento auto-evolutiva per far progredire l'intelligenza agenziale generale attraverso ambienti scalabili. Agent-World ha due componenti principali: (1) l'Agentic Environment-Task Discovery, che esplora autonomamente database allineati a tematiche ed ecosistemi di strumenti eseguibili derivati da migliaia di temi ambientali del mondo reale, sintetizzando compiti verificabili con difficoltà controllabile; e (2) il Continuous Self-Evolving Agent Training, che combina l'apprendimento per rinforzo multi-ambiente con un'arena agenziale auto-evolutiva che identifica automaticamente le lacune nelle capacità attraverso la sintesi dinamica di compiti e guida un apprendimento mirato, consentendo la co-evoluzione delle politiche degli agenti e degli ambienti. Su 23 benchmark agenziali impegnativi, Agent-World-8B e 14B superano costantemente modelli proprietari avanzati e baseline di scalabilità ambientale. Ulteriori analisi rivelano trend di scalabilità in relazione alla diversità ambientale e ai cicli di auto-evoluzione, offrendo spunti per la costruzione di un'intelligenza agenziale generale.

English

Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present Agent-World, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.

Agent-World: Scalabilità della Sintesi di Ambienti Reali per l'Evoluzione dell'Intelligenza Agente Generale

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Abstract

Support