Agent-World: Het Opschalen van Real-World Omgevingssynthese voor de Evolutie van Algemene Agentintelligentie

Samenvatting

Grote taalmodellen worden in toenemende mate verwacht te functioneren als algemene agenten die interacteren met externe, stateful tool-omgevingen. Het Model Context Protocol (MCP) en bredere agentvaardigheden bieden een uniforme interface voor het verbinden van agenten met schaalbare real-world diensten, maar de training van robuuste agenten wordt nog steeds beperkt door een gebrek aan realistische omgevingen en principiële mechanismen voor levenslang leren. In dit artikel presenteren we Agent-World, een zelf-evoluerende trainingsarena voor het bevorderen van algemene agentintelligentie via schaalbare omgevingen. Agent-World heeft twee hoofdcomponenten: (1) Agentic Environment-Task Discovery, die autonoom topic-gebonden databases en uitvoerbare tool-ecosystemen verkent uit duizenden real-world omgevingsthema's en verifieerbare taken synthetiseert met controleerbare moeilijkheidsgraad; en (2) Continue Zelf-Evoluerende Agent Training, die multi-omgeving reinforcement learning combineert met een zelf-evoluerende agentarena die automatisch capaciteitshiaten identificeert via dynamische taaksynthese en gericht leren aanstuurt, waardoor co-evolutie van agentbeleid en omgevingen mogelijk wordt. Over 23 uitdagende agentbenchmarks heen presteren Agent-World-8B en 14B consistent beter dan sterke propriëtaire modellen en omgeving-schaleringsbaselines. Verdere analyses onthullen schaalverbanden met betrekking tot omgevingsdiversiteit en zelf-evolutierondes, wat inzichten biedt voor het bouwen van algemene agentintelligentie.

English

Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present Agent-World, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.

Agent-World: Het Opschalen van Real-World Omgevingssynthese voor de Evolutie van Algemene Agentintelligentie

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Samenvatting

Support