Modélisation 3D et 4D du monde : Un état de l'art
3D and 4D World Modeling: A Survey
September 4, 2025
papers.authors: Lingdong Kong, Wesley Yang, Jianbiao Mei, Youquan Liu, Ao Liang, Dekai Zhu, Dongyue Lu, Wei Yin, Xiaotao Hu, Mingkai Jia, Junyuan Deng, Kaiwen Zhang, Yang Wu, Tianyi Yan, Shenyuan Gao, Song Wang, Linfeng Li, Liang Pan, Yong Liu, Jianke Zhu, Wei Tsang Ooi, Steven C. H. Hoi, Ziwei Liu
cs.AI
papers.abstract
La modélisation du monde est devenue une pierre angulaire de la recherche en IA, permettant aux agents de comprendre, représenter et prédire les environnements dynamiques dans lesquels ils évoluent. Alors que les travaux antérieurs mettent principalement l'accent sur les méthodes génératives pour les données d'images et de vidéos en 2D, ils négligent le corpus de travaux en pleine expansion qui exploite les représentations natives en 3D et 4D, telles que les images RGB-D, les grilles d'occupation et les nuages de points LiDAR, pour la modélisation de scènes à grande échelle. Parallèlement, l'absence d'une définition standardisée et d'une taxonomie pour les « modèles du monde » a conduit à des affirmations fragmentées et parfois incohérentes dans la littérature. Cette étude comble ces lacunes en présentant la première revue complète explicitement dédiée à la modélisation et à la génération du monde en 3D et 4D. Nous établissons des définitions précises, introduisons une taxonomie structurée couvrant les approches basées sur la vidéo (VideoGen), sur l'occupation (OccGen) et sur le LiDAR (LiDARGen), et résumons systématiquement les ensembles de données et les métriques d'évaluation adaptés aux contextes 3D/4D. Nous discutons également des applications pratiques, identifions les défis ouverts et mettons en lumière les directions de recherche prometteuses, dans le but de fournir une référence cohérente et fondamentale pour faire progresser le domaine. Un résumé systématique de la littérature existante est disponible à l'adresse suivante : https://github.com/worldbench/survey.
English
World modeling has become a cornerstone in AI research, enabling agents to
understand, represent, and predict the dynamic environments they inhabit. While
prior work largely emphasizes generative methods for 2D image and video data,
they overlook the rapidly growing body of work that leverages native 3D and 4D
representations such as RGB-D imagery, occupancy grids, and LiDAR point clouds
for large-scale scene modeling. At the same time, the absence of a standardized
definition and taxonomy for ``world models'' has led to fragmented and
sometimes inconsistent claims in the literature. This survey addresses these
gaps by presenting the first comprehensive review explicitly dedicated to 3D
and 4D world modeling and generation. We establish precise definitions,
introduce a structured taxonomy spanning video-based (VideoGen),
occupancy-based (OccGen), and LiDAR-based (LiDARGen) approaches, and
systematically summarize datasets and evaluation metrics tailored to 3D/4D
settings. We further discuss practical applications, identify open challenges,
and highlight promising research directions, aiming to provide a coherent and
foundational reference for advancing the field. A systematic summary of
existing literature is available at https://github.com/worldbench/survey