ChatPaper.aiChatPaper

Agent-World : Mettre à l'échelle la synthèse d'environnements réels pour faire évoluer l'intelligence générale des agents

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

April 20, 2026
Auteurs: Guanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou
cs.AI

Résumé

Les grands modèles de langage sont de plus en plus appelés à servir d'agents polyvalents interagissant avec des environnements externes ayant un état. Le Model Context Protocol (MCP) et les compétences agentes élargies offrent une interface unifiée pour connecter les agents à des services réels évolutifs, mais l'entraînement d'agents robustes reste limité par le manque d'environnements réalistes et de mécanismes principiés pour l'apprentissage continu. Dans cet article, nous présentons Agent-World, une arène d'entraînement auto-évolutive pour faire progresser l'intelligence agente générale grâce à des environnements évolutifs. Agent-World comporte deux composantes principales : (1) la Découverte Autonome d'Environnements-Tâches, qui explore de manière autonome des bases de données thématiques et des écosystèmes d'outils exécutables à partir de milliers de thèmes environnementaux réels, et synthétise des tâches vérifiables avec une difficulté contrôlable ; et (2) l'Entraînement Continu Auto-Évolutif des Agents, qui combine l'apprentissage par renforcement multi-environnements avec une arène agente auto-évolutive qui identifie automatiquement les lacunes capacitives via la synthèse dynamique de tâches et pilote l'apprentissage ciblé, permettant la co-évolution des politiques d'agents et des environnements. Sur 23 benchmarks agents exigeants, Agent-World-8B et 14B surpassent constamment les modèles propriétaires robustes et les bases de référence de mise à l'échelle des environnements. Des analyses plus poussées révèlent des tendances d'échelle liées à la diversité des environnements et aux cycles d'auto-évolution, offrant des perspectives pour construire une intelligence agente générale.
English
Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present Agent-World, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.
PDF663April 22, 2026