ChatPaper.aiChatPaper

Modélisation du Monde Agentique : Fondements, Capacités, Lois et Au-Delà

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

April 24, 2026
Auteurs: Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi Huang, Senqiao Yang, Wei Huang, Yeying Jin, Zhefan Rao, Jinhui Ye, Xinyu Lin, Xichen Zhang, Qisheng Hu, Shuai Yang, Leyang Shen, Wei Chow, Yifei Dong, Fengyi Wu, Quanyu Long, Bin Xia, Shaozuo Yu, Mingkang Zhu, Wenhu Zhang, Jiehui Huang, Haokun Gui, Haoxuan Che, Long Chen, Qifeng Chen, Wenxuan Zhang, Wenya Wang, Xiaojuan Qi, Yang Deng, Yanwei Li, Mike Zheng Shou, Zhi-Qi Cheng, See-Kiong Ng, Ziwei Liu, Philip Torr, Jiaya Jia
cs.AI

Résumé

Alors que les systèmes d'IA évoluent de la génération de texte vers la réalisation d'objectifs par une interaction soutenue, la capacité à modéliser la dynamique de l'environnement devient un goulot d'étranglement central. Les agents qui manipulent des objets, naviguent dans des logiciels, se coordonnent avec d'autres ou conçoivent des expériences nécessitent des modèles prédictifs de l'environnement. Pourtant, le terme de *modèle du monde* revêt des significations différentes selon les communautés de recherche. Nous introduisons une taxonomie « niveaux x lois » organisée selon deux axes. Le premier définit trois niveaux de capacité : le Prédicteur L1, qui apprend des opérateurs de transition locaux à un pas ; le Simulateur L2, qui les compose en séquences multi-étapes conditionnées par les actions et respectant les lois du domaine ; et l'Évolueur L3, qui révise autonome son propre modèle lorsque les prédictions échouent face à de nouvelles preuves. Le second axe identifie quatre régimes de lois régissantes : physique, numérique, social et scientifique. Ces régimes déterminent les contraintes qu'un modèle du monde doit satisfaire et les points où il est le plus susceptible d'échouer. En utilisant ce cadre, nous synthétisons plus de 400 travaux et résumons plus de 100 systèmes représentatifs couvrant l'apprentissage par renforcement basé modèle, la génération vidéo, les agents web et d'interface graphique, la simulation sociale multi-agents et la découverte scientifique pilotée par l'IA. Nous analysons les méthodes, les modes d'échec et les pratiques d'évaluation pour chaque paire niveau-régime, proposons des principes d'évaluation centrés sur la décision ainsi qu'un package d'évaluation reproductible minimal, et esquissons des conseils architecturaux, des problèmes ouverts et des défis de gouvernance. La feuille de route qui en résulte connecte des communautés précédemment isolées et trace un chemin allant de la prédiction passive de l'étape suivante vers des modèles du monde capables de simuler, et finalement de remodeler, les environnements dans lesquels les agents opèrent.
English
As AI systems move from generating text to accomplishing goals through sustained interaction, the ability to model environment dynamics becomes a central bottleneck. Agents that manipulate objects, navigate software, coordinate with others, or design experiments require predictive environment models, yet the term world model carries different meanings across research communities. We introduce a "levels x laws" taxonomy organized along two axes. The first defines three capability levels: L1 Predictor, which learns one-step local transition operators; L2 Simulator, which composes them into multi-step, action-conditioned rollouts that respect domain laws; and L3 Evolver, which autonomously revises its own model when predictions fail against new evidence. The second identifies four governing-law regimes: physical, digital, social, and scientific. These regimes determine what constraints a world model must satisfy and where it is most likely to fail. Using this framework, we synthesize over 400 works and summarize more than 100 representative systems spanning model-based reinforcement learning, video generation, web and GUI agents, multi-agent social simulation, and AI-driven scientific discovery. We analyze methods, failure modes, and evaluation practices across level-regime pairs, propose decision-centric evaluation principles and a minimal reproducible evaluation package, and outline architectural guidance, open problems, and governance challenges. The resulting roadmap connects previously isolated communities and charts a path from passive next-step prediction toward world models that can simulate, and ultimately reshape, the environments in which agents operate.
PDF1521April 28, 2026