Agente-Mundo: Escalando a Síntese de Ambientes do Mundo Real para a Evolução da Inteligência Geral de Agentes

Resumo

Os grandes modelos de linguagem são cada vez mais esperados para atuar como agentes de propósito geral que interagem com ambientes externos de ferramentas com estado. O Model Context Protocol (MCP) e as habilidades mais amplas de agentes oferecem uma interface unificada para conectar agentes a serviços do mundo real escaláveis, mas o treinamento de agentes robustos continua limitado pela falta de ambientes realistas e mecanismos fundamentados para aprendizado contínuo. Neste artigo, apresentamos o Agent-World, uma arena de treinamento de auto-evolução para avançar a inteligência geral de agentes por meio de ambientes escaláveis. O Agent-World possui dois componentes principais: (1) Descoberta Autônoma de Ambientes e Tarefas, que explora autonomamente bancos de dados alinhados por tópico e ecossistemas de ferramentas executáveis a partir de milhares de temas de ambiente do mundo real, e sintetiza tarefas verificáveis com dificuldade controlável; e (2) Treinamento Contínuo de Auto-Evolução de Agentes, que combina aprendizado por reforço multi-ambiente com uma arena de agentes de auto-evolução que identifica automaticamente lacunas de capacidade através da síntese dinâmica de tarefas e impulsiona o aprendizado direcionado, permitindo a co-evolução de políticas de agentes e ambientes. Em 23 benchmarks desafiadores de agentes, o Agent-World-8B e 14B superaram consistentemente modelos proprietários robustos e linhas de base de escalonamento de ambiente. Análises adicionais revelam tendências de escalonamento em relação à diversidade de ambientes e rodadas de auto-evolução, oferecendo insights para a construção de inteligência geral de agentes.

English

Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present Agent-World, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.

Agente-Mundo: Escalando a Síntese de Ambientes do Mundo Real para a Evolução da Inteligência Geral de Agentes

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Resumo

Support