ChatPaper.aiChatPaper

Агент-Мир: Масштабирование синтеза реальных сред для эволюции общего интеллекта агентов

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

April 20, 2026
Авторы: Guanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou
cs.AI

Аннотация

Крупные языковые модели всё чаще рассматриваются как универсальные агенты, взаимодействующие с внешними инструментальными средами, обладающими состоянием. Модельный контекстный протокол (MCP) и более широкий набор агентских навыков предлагают унифицированный интерфейс для подключения агентов к масштабируемым сервисам реального мира, однако обучение robustных агентов по-прежнему ограничено отсутствием реалистичных сред и принципиальных механизмов непрерывного обучения. В данной статье мы представляем Agent-World — саморазвивающуюся тренировочную арену для развития общего агентного интеллекта через масштабируемые среды. Agent-World состоит из двух основных компонентов: (1) Автономного обнаружения сред и задач, которое самостоятельно исследует тематически выровненные базы данных и экосистемы исполняемых инструментов из тысяч тем реальных сред и синтезирует проверяемые задачи с контролируемой сложностью; и (2) Непрерывного саморазвивающегося обучения агентов, которое сочетает обучение с подкреплением в множественных средах с саморазвивающейся ареной агентов, автоматически выявляющей пробелы в способностях через динамический синтез задач и стимулирующей целенаправленное обучение, что позволяет осуществлять коэволюцию политик агентов и сред. На 23 сложных агентских бенчмарках модели Agent-World-8B и 14B стабильно превосходят мощные проприетарные модели и базовые подходы к масштабированию сред. Дальнейший анализ выявляет тренды масштабирования в зависимости от разнообразия сред и циклов саморазвития, предлагая insights для построения общего агентного интеллекта.
English
Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present Agent-World, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.
PDF663April 22, 2026