Агентная Мировая Модель: Бесконечные Синтетические Среды для Агентного Обучения с Подкреплением
Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
February 10, 2026
Авторы: Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) позволили автономным агентам выполнять сложные задачи, требующие многошагового взаимодействия с инструментами и окружением. Однако масштабирование такого обучения агентов ограничено отсутствием разнообразных и надежных сред. В данной статье мы предлагаем Модель мира агента (Agent World Model, AWM) — полностью синтетический конвейер генерации сред. С помощью этого конвейера мы масштабировались до 1000 сред, охватывающих повседневные сценарии, в которых агенты могут взаимодействовать с богатыми наборами инструментов (в среднем 35 инструментов на среду) и получать высококачественные наблюдения. Примечательно, что эти среды управляются кодом и поддерживаются базами данных, обеспечивая более надежные и последовательные переходы состояний по сравнению со средами, симулируемыми LLM. Более того, они позволяют осуществлять более эффективное взаимодействие с агентом по сравнению со сбором траекторий из реалистичных сред. Чтобы продемонстрировать эффективность этого ресурса, мы проводим обучение с подкреплением в крупном масштабе для агентов, использующих инструменты в многошаговых сценариях. Благодаря полностью исполняемым средам и доступным состояниям баз данных мы также можем проектировать надежные функции вознаграждения. Эксперименты на трех тестовых наборах показывают, что обучение исключительно в синтетических средах, а не в специфичных для конкретного набора, обеспечивает сильную обобщающую способность вне распределения. Код доступен по адресу https://github.com/Snowflake-Labs/agent-world-model.
English
Recent advances in large language model (LLM) have empowered autonomous agents to perform complex tasks that require multi-turn interactions with tools and environments. However, scaling such agent training is limited by the lack of diverse and reliable environments. In this paper, we propose Agent World Model (AWM), a fully synthetic environment generation pipeline. Using this pipeline, we scale to 1,000 environments covering everyday scenarios, in which agents can interact with rich toolsets (35 tools per environment on average) and obtain high-quality observations. Notably, these environments are code-driven and backed by databases, providing more reliable and consistent state transitions than environments simulated by LLMs. Moreover, they enable more efficient agent interaction compared with collecting trajectories from realistic environments. To demonstrate the effectiveness of this resource, we perform large-scale reinforcement learning for multi-turn tool-use agents. Thanks to the fully executable environments and accessible database states, we can also design reliable reward functions. Experiments on three benchmarks show that training exclusively in synthetic environments, rather than benchmark-specific ones, yields strong out-of-distribution generalization. The code is available at https://github.com/Snowflake-Labs/agent-world-model.