Modélisation du Monde Agentique : Fondements, Capacités, Lois et Au-Delà

Résumé

Alors que les systèmes d'IA évoluent de la génération de texte vers la réalisation d'objectifs par une interaction soutenue, la capacité à modéliser la dynamique de l'environnement devient un goulot d'étranglement central. Les agents qui manipulent des objets, naviguent dans des logiciels, se coordonnent avec d'autres ou conçoivent des expériences nécessitent des modèles prédictifs de l'environnement. Pourtant, le terme de *modèle du monde* revêt des significations différentes selon les communautés de recherche. Nous introduisons une taxonomie « niveaux x lois » organisée selon deux axes. Le premier définit trois niveaux de capacité : le Prédicteur L1, qui apprend des opérateurs de transition locaux à un pas ; le Simulateur L2, qui les compose en séquences multi-étapes conditionnées par les actions et respectant les lois du domaine ; et l'Évolueur L3, qui révise autonome son propre modèle lorsque les prédictions échouent face à de nouvelles preuves. Le second axe identifie quatre régimes de lois régissantes : physique, numérique, social et scientifique. Ces régimes déterminent les contraintes qu'un modèle du monde doit satisfaire et les points où il est le plus susceptible d'échouer. En utilisant ce cadre, nous synthétisons plus de 400 travaux et résumons plus de 100 systèmes représentatifs couvrant l'apprentissage par renforcement basé modèle, la génération vidéo, les agents web et d'interface graphique, la simulation sociale multi-agents et la découverte scientifique pilotée par l'IA. Nous analysons les méthodes, les modes d'échec et les pratiques d'évaluation pour chaque paire niveau-régime, proposons des principes d'évaluation centrés sur la décision ainsi qu'un package d'évaluation reproductible minimal, et esquissons des conseils architecturaux, des problèmes ouverts et des défis de gouvernance. La feuille de route qui en résulte connecte des communautés précédemment isolées et trace un chemin allant de la prédiction passive de l'étape suivante vers des modèles du monde capables de simuler, et finalement de remodeler, les environnements dans lesquels les agents opèrent.

English

As AI systems move from generating text to accomplishing goals through sustained interaction, the ability to model environment dynamics becomes a central bottleneck. Agents that manipulate objects, navigate software, coordinate with others, or design experiments require predictive environment models, yet the term world model carries different meanings across research communities. We introduce a "levels x laws" taxonomy organized along two axes. The first defines three capability levels: L1 Predictor, which learns one-step local transition operators; L2 Simulator, which composes them into multi-step, action-conditioned rollouts that respect domain laws; and L3 Evolver, which autonomously revises its own model when predictions fail against new evidence. The second identifies four governing-law regimes: physical, digital, social, and scientific. These regimes determine what constraints a world model must satisfy and where it is most likely to fail. Using this framework, we synthesize over 400 works and summarize more than 100 representative systems spanning model-based reinforcement learning, video generation, web and GUI agents, multi-agent social simulation, and AI-driven scientific discovery. We analyze methods, failure modes, and evaluation practices across level-regime pairs, propose decision-centric evaluation principles and a minimal reproducible evaluation package, and outline architectural guidance, open problems, and governance challenges. The resulting roadmap connects previously isolated communities and charts a path from passive next-step prediction toward world models that can simulate, and ultimately reshape, the environments in which agents operate.

Modélisation du Monde Agentique : Fondements, Capacités, Lois et Au-Delà

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Résumé

Support