Agente-Mundo: Escalando la Síntesis de Entornos del Mundo Real para la Evolución de la Inteligencia General de Agentes

Resumen

Se espera cada vez más que los grandes modelos de lenguaje funcionen como agentes de propósito general que interactúan con entornos externos de herramientas con estado. El Protocolo de Contexto del Modelo (MCP) y las habilidades de agentes en general ofrecen una interfaz unificada para conectar agentes con servicios del mundo real escalables, pero el entrenamiento de agentes robustos sigue limitado por la falta de entornos realistas y mecanismos fundamentados para el aprendizaje continuo. En este artículo, presentamos Agent-World, una arena de entrenamiento de auto-evolución para avanzar en la inteligencia general de agentes mediante entornos escalables. Agent-World tiene dos componentes principales: (1) el Descubrimiento Autónomo de Entornos y Tareas, que explora de forma autónoma bases de datos temáticamente alineadas y ecosistemas de herramientas ejecutables a partir de miles de temas de entornos del mundo real, y sintetiza tareas verificables con dificultad controlable; y (2) el Entrenamiento Continuo de Agentes de Auto-Evolución, que combina el aprendizaje por refuerzo multi-entorno con una arena de agentes de auto-evolución que identifica automáticamente las brechas de capacidad mediante la síntesis dinámica de tareas e impulsa el aprendizaje dirigido, permitiendo la co-evolución de las políticas de los agentes y los entornos. En 23 benchmarks desafiantes para agentes, Agent-World de 8B y 14B parámetros supera consistentemente a modelos propietarios sólidos y a líneas base de escalado de entornos. Análisis adicionales revelan tendencias de escalado en relación con la diversidad de entornos y las rondas de auto-evolución, ofreciendo perspectivas para la construcción de una inteligencia de agentes general.

English

Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present Agent-World, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.

Agente-Mundo: Escalando la Síntesis de Entornos del Mundo Real para la Evolución de la Inteligencia General de Agentes

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Resumen

Support