ChatPaper.aiChatPaper

Simuler le monde visuel avec l'intelligence artificielle : une feuille de route

Simulating the Visual World with Artificial Intelligence: A Roadmap

November 11, 2025
papers.authors: Jingtong Yue, Ziqi Huang, Zhaoxi Chen, Xintao Wang, Pengfei Wan, Ziwei Liu
cs.AI

papers.abstract

Le paysage de la génération vidéo est en pleine mutation, passant d'une focalisation sur la production de clips visuellement attrayants à la construction d'environnements virtuels qui soutiennent l'interaction et préservent la plausibilité physique. Ces évolutions pointent vers l'émergence de modèles fondateurs vidéo qui fonctionnent non seulement comme des générateurs visuels, mais aussi comme des modèles mondes implicites – des modèles qui simulent la dynamique physique, les interactions agent-environnement et la planification de tâches qui régissent des mondes réels ou imaginaires. Cette étude propose une vue systématique de cette évolution, en conceptualisant les modèles fondateurs vidéo modernes comme la combinaison de deux composants centraux : un modèle monde implicite et un moteur de rendu vidéo. Le modèle monde encode une connaissance structurée du monde, incluant les lois physiques, la dynamique des interactions et le comportement des agents. Il sert de moteur de simulation latent qui permet un raisonnement visuel cohérent, une cohérence temporelle à long terme et une planification pilotée par des objectifs. Le moteur de rendu vidéo transforme cette simulation latente en observations visuelles réalistes, produisant effectivement des vidéos comme une « fenêtre » sur le monde simulé. Nous retraçons la progression de la génération vidéo à travers quatre générations, où les capacités fondamentales avancent étape par étape, culminant finalement en un modèle monde, construit sur un modèle de génération vidéo, qui incarne une plausibilité physique intrinsèque, une interaction multimodale en temps réel et des capacités de planification couvrant de multiples échelles spatio-temporelles. Pour chaque génération, nous définissons ses caractéristiques principales, mettons en lumière des travaux représentatifs et examinons leurs domaines d'application tels que la robotique, la conduite autonome et les jeux interactifs. Enfin, nous discutons des défis ouverts et des principes de conception pour les modèles monde de prochaine génération, incluant le rôle de l'intelligence des agents dans la formation et l'évaluation de ces systèmes. Une liste actualisée des travaux associés est maintenue à ce lien.
English
The landscape of video generation is shifting, from a focus on generating visually appealing clips to building virtual environments that support interaction and maintain physical plausibility. These developments point toward the emergence of video foundation models that function not only as visual generators but also as implicit world models, models that simulate the physical dynamics, agent-environment interactions, and task planning that govern real or imagined worlds. This survey provides a systematic overview of this evolution, conceptualizing modern video foundation models as the combination of two core components: an implicit world model and a video renderer. The world model encodes structured knowledge about the world, including physical laws, interaction dynamics, and agent behavior. It serves as a latent simulation engine that enables coherent visual reasoning, long-term temporal consistency, and goal-driven planning. The video renderer transforms this latent simulation into realistic visual observations, effectively producing videos as a "window" into the simulated world. We trace the progression of video generation through four generations, in which the core capabilities advance step by step, ultimately culminating in a world model, built upon a video generation model, that embodies intrinsic physical plausibility, real-time multimodal interaction, and planning capabilities spanning multiple spatiotemporal scales. For each generation, we define its core characteristics, highlight representative works, and examine their application domains such as robotics, autonomous driving, and interactive gaming. Finally, we discuss open challenges and design principles for next-generation world models, including the role of agent intelligence in shaping and evaluating these systems. An up-to-date list of related works is maintained at this link.
PDF293December 1, 2025