Агентное моделирование мира: основы, возможности, законы и перспективы
Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
April 24, 2026
Авторы: Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi Huang, Senqiao Yang, Wei Huang, Yeying Jin, Zhefan Rao, Jinhui Ye, Xinyu Lin, Xichen Zhang, Qisheng Hu, Shuai Yang, Leyang Shen, Wei Chow, Yifei Dong, Fengyi Wu, Quanyu Long, Bin Xia, Shaozuo Yu, Mingkang Zhu, Wenhu Zhang, Jiehui Huang, Haokun Gui, Haoxuan Che, Long Chen, Qifeng Chen, Wenxuan Zhang, Wenya Wang, Xiaojuan Qi, Yang Deng, Yanwei Li, Mike Zheng Shou, Zhi-Qi Cheng, See-Kiong Ng, Ziwei Liu, Philip Torr, Jiaya Jia
cs.AI
Аннотация
По мере перехода ИИ-систем от генерации текста к достижению целей через продолжительное взаимодействие, способность моделировать динамику окружающей среды становится ключевым ограничивающим фактором. Агентам, манипулирующим объектами, взаимодействующим с программным обеспечением, координирующим действия с другими или планирующим эксперименты, требуются прогнозные модели среды, однако термин «модель мира» имеет различные трактовки в разных научных сообществах. Мы представляем таксономию «уровни × законы», организованную по двум осям. Первая ось определяет три уровня возможностей: L1 Предиктор, изучающий локальные одношаговые операторы переходов; L2 Симулятор, комбинирующий их в многошаговые, обусловленные действиями сценарии, соответствующие законам предметной области; и L3 Эволюционер, автономно корректирующий собственную модель при расхождении прогнозов с новыми данными. Вторая ось идентифицирует четыре режима управляющих законов: физические, цифровые, социальные и научные. Эти режимы определяют, каким ограничениям должна удовлетворять модель мира и где она наиболее вероятно даст сбой. Используя этот каркас, мы систематизируем более 400 работ и обобщаем более 100 репрезентативных систем, охватывающих обучение с подкреплением на основе моделей, генерацию видео, веб-агентов и агентов с графическим интерфейсом, социальное моделирование в мультиагентных средах и научные открытия с помощью ИИ. Мы анализируем методы, типы сбоев и практики оценки для пар «уровень–режим», предлагаем принципы оценки, ориентированной на принятие решений, и минимальный воспроизводимый пакет оценки, а также формулируем архитектурные рекомендации, нерешённые проблемы и вызовы управления. Полученная дорожная карта соединяет ранее разрозненные сообщества и намечает путь от пассивного прогнозирования следующего шага к моделям мира, способным симулировать и, в конечном счёте, преобразовывать среды, в которых действуют агенты.
English
As AI systems move from generating text to accomplishing goals through sustained interaction, the ability to model environment dynamics becomes a central bottleneck. Agents that manipulate objects, navigate software, coordinate with others, or design experiments require predictive environment models, yet the term world model carries different meanings across research communities. We introduce a "levels x laws" taxonomy organized along two axes. The first defines three capability levels: L1 Predictor, which learns one-step local transition operators; L2 Simulator, which composes them into multi-step, action-conditioned rollouts that respect domain laws; and L3 Evolver, which autonomously revises its own model when predictions fail against new evidence. The second identifies four governing-law regimes: physical, digital, social, and scientific. These regimes determine what constraints a world model must satisfy and where it is most likely to fail. Using this framework, we synthesize over 400 works and summarize more than 100 representative systems spanning model-based reinforcement learning, video generation, web and GUI agents, multi-agent social simulation, and AI-driven scientific discovery. We analyze methods, failure modes, and evaluation practices across level-regime pairs, propose decision-centric evaluation principles and a minimal reproducible evaluation package, and outline architectural guidance, open problems, and governance challenges. The resulting roadmap connects previously isolated communities and charts a path from passive next-step prediction toward world models that can simulate, and ultimately reshape, the environments in which agents operate.