Agent-World: Skalierung der Realwelt-Umgebungssynthese zur Entwicklung allgemeiner Agentenintelligenz
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
April 20, 2026
Autoren: Guanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou
cs.AI
Zusammenfassung
Große Sprachmodelle werden zunehmend als universelle Agenten eingesetzt, die mit externen, zustandsbehafteten Werkzeugumgebungen interagieren. Das Model Context Protocol (MCP) und umfassendere Agenten-Fähigkeiten bieten eine einheitliche Schnittstelle zur Verbindung von Agenten mit skalierbaren Dienstleistungen der realen Welt, doch die Robustheit trainierter Agenten bleibt durch den Mangel an realistischen Umgebungen und prinzipiellen Mechanismen für lebenslanges Lernen eingeschränkt. In diesem Artikel stellen wir Agent-World vor, eine sich selbst entwickelnde Trainingsarena zur Weiterentwicklung allgemeiner Agenten-Intelligenz durch skalierbare Umgebungen. Agent-World besteht aus zwei Hauptkomponenten: (1) Agentische Umwelt-Aufgaben-Entdeckung, die autonom themenausgerichtete Datenbanken und ausführbare Werkzeug-Ökosysteme aus Tausenden realer Umgebungsthemen erkundet und überprüfbare Aufgaben mit kontrollierbarem Schwierigkeitsgrad synthetisiert; und (2) Kontinuierliches sich selbst entwickelndes Agenten-Training, das Reinforcement-Learning in multiplen Umgebungen mit einer sich selbst entwickelnden Agenten-Arena kombiniert, die Fähigkeitslücken durch dynamische Aufgabensynthese automatisch identifiziert und gezieltes Lernen vorantreibt, wodurch die Ko-Evolution von Agenten-Policies und Umgebungen ermöglicht wird. In 23 anspruchsvollen Agenten-Benchmarks übertreffen Agent-World-8B und 14B durchgängig starke proprietäre Modelle und Umgebungsskalierungs-Baselines. Weitere Analysen zeigen Skalierungstrends in Bezug auf Umgebungsvielfalt und Selbstentwicklungszyklen auf und bieten Erkenntnisse für den Aufbau allgemeiner Agenten-Intelligenz.
English
Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present Agent-World, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.