Агент-Мир: Масштабирование синтеза реальных сред для эволюции общего интеллекта агентов

Аннотация

Крупные языковые модели всё чаще рассматриваются как универсальные агенты, взаимодействующие с внешними инструментальными средами, обладающими состоянием. Модельный контекстный протокол (MCP) и более широкий набор агентских навыков предлагают унифицированный интерфейс для подключения агентов к масштабируемым сервисам реального мира, однако обучение robustных агентов по-прежнему ограничено отсутствием реалистичных сред и принципиальных механизмов непрерывного обучения. В данной статье мы представляем Agent-World — саморазвивающуюся тренировочную арену для развития общего агентного интеллекта через масштабируемые среды. Agent-World состоит из двух основных компонентов: (1) Автономного обнаружения сред и задач, которое самостоятельно исследует тематически выровненные базы данных и экосистемы исполняемых инструментов из тысяч тем реальных сред и синтезирует проверяемые задачи с контролируемой сложностью; и (2) Непрерывного саморазвивающегося обучения агентов, которое сочетает обучение с подкреплением в множественных средах с саморазвивающейся ареной агентов, автоматически выявляющей пробелы в способностях через динамический синтез задач и стимулирующей целенаправленное обучение, что позволяет осуществлять коэволюцию политик агентов и сред. На 23 сложных агентских бенчмарках модели Agent-World-8B и 14B стабильно превосходят мощные проприетарные модели и базовые подходы к масштабированию сред. Дальнейший анализ выявляет тренды масштабирования в зависимости от разнообразия сред и циклов саморазвития, предлагая insights для построения общего агентного интеллекта.

English

Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present Agent-World, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.

Агент-Мир: Масштабирование синтеза реальных сред для эволюции общего интеллекта агентов

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Аннотация

Support