Agent-World : Mettre à l'échelle la synthèse d'environnements réels pour faire évoluer l'intelligence générale des agents

Résumé

Les grands modèles de langage sont de plus en plus appelés à servir d'agents polyvalents interagissant avec des environnements externes ayant un état. Le Model Context Protocol (MCP) et les compétences agentes élargies offrent une interface unifiée pour connecter les agents à des services réels évolutifs, mais l'entraînement d'agents robustes reste limité par le manque d'environnements réalistes et de mécanismes principiés pour l'apprentissage continu. Dans cet article, nous présentons Agent-World, une arène d'entraînement auto-évolutive pour faire progresser l'intelligence agente générale grâce à des environnements évolutifs. Agent-World comporte deux composantes principales : (1) la Découverte Autonome d'Environnements-Tâches, qui explore de manière autonome des bases de données thématiques et des écosystèmes d'outils exécutables à partir de milliers de thèmes environnementaux réels, et synthétise des tâches vérifiables avec une difficulté contrôlable ; et (2) l'Entraînement Continu Auto-Évolutif des Agents, qui combine l'apprentissage par renforcement multi-environnements avec une arène agente auto-évolutive qui identifie automatiquement les lacunes capacitives via la synthèse dynamique de tâches et pilote l'apprentissage ciblé, permettant la co-évolution des politiques d'agents et des environnements. Sur 23 benchmarks agents exigeants, Agent-World-8B et 14B surpassent constamment les modèles propriétaires robustes et les bases de référence de mise à l'échelle des environnements. Des analyses plus poussées révèlent des tendances d'échelle liées à la diversité des environnements et aux cycles d'auto-évolution, offrant des perspectives pour construire une intelligence agente générale.

English

Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present Agent-World, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.

Agent-World : Mettre à l'échelle la synthèse d'environnements réels pour faire évoluer l'intelligence générale des agents

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Résumé

Support