3D- en 4D-wereldmodellering: Een overzicht
3D and 4D World Modeling: A Survey
September 4, 2025
Auteurs: Lingdong Kong, Wesley Yang, Jianbiao Mei, Youquan Liu, Ao Liang, Dekai Zhu, Dongyue Lu, Wei Yin, Xiaotao Hu, Mingkai Jia, Junyuan Deng, Kaiwen Zhang, Yang Wu, Tianyi Yan, Shenyuan Gao, Song Wang, Linfeng Li, Liang Pan, Yong Liu, Jianke Zhu, Wei Tsang Ooi, Steven C. H. Hoi, Ziwei Liu
cs.AI
Samenvatting
Wereldmodellering is een hoeksteen geworden in AI-onderzoek, waardoor agentsystemen de dynamische omgevingen waarin ze opereren kunnen begrijpen, representeren en voorspellen. Hoewel eerder werk zich vooral richtte op generatieve methoden voor 2D-beeld- en videodata, wordt het snel groeiende onderzoek dat gebruikmaakt van native 3D- en 4D-representaties zoals RGB-D-beelden, occupancy grids en LiDAR-puntenwolken voor grootschalige scènemodellering vaak over het hoofd gezien. Tegelijkertijd heeft het ontbreken van een gestandaardiseerde definitie en taxonomie voor "wereldmodellen" geleid tot gefragmenteerde en soms inconsistente claims in de literatuur. Deze survey behandelt deze leemtes door de eerste uitgebreide review te presenteren die expliciet gewijd is aan 3D- en 4D-wereldmodellering en -generatie. We stellen nauwkeurige definities vast, introduceren een gestructureerde taxonomie die video-gebaseerde (VideoGen), occupancy-gebaseerde (OccGen) en LiDAR-gebaseerde (LiDARGen) benaderingen omvat, en vatten systematisch datasets en evaluatiemetrices samen die zijn toegespitst op 3D/4D-instellingen. Daarnaast bespreken we praktische toepassingen, identificeren we open uitdagingen en belichten we veelbelovende onderzoeksrichtingen, met als doel een coherent en fundamenteel referentiekader te bieden voor de verdere ontwikkeling van het vakgebied. Een systematische samenvatting van de bestaande literatuur is beschikbaar op https://github.com/worldbench/survey.
English
World modeling has become a cornerstone in AI research, enabling agents to
understand, represent, and predict the dynamic environments they inhabit. While
prior work largely emphasizes generative methods for 2D image and video data,
they overlook the rapidly growing body of work that leverages native 3D and 4D
representations such as RGB-D imagery, occupancy grids, and LiDAR point clouds
for large-scale scene modeling. At the same time, the absence of a standardized
definition and taxonomy for ``world models'' has led to fragmented and
sometimes inconsistent claims in the literature. This survey addresses these
gaps by presenting the first comprehensive review explicitly dedicated to 3D
and 4D world modeling and generation. We establish precise definitions,
introduce a structured taxonomy spanning video-based (VideoGen),
occupancy-based (OccGen), and LiDAR-based (LiDARGen) approaches, and
systematically summarize datasets and evaluation metrics tailored to 3D/4D
settings. We further discuss practical applications, identify open challenges,
and highlight promising research directions, aiming to provide a coherent and
foundational reference for advancing the field. A systematic summary of
existing literature is available at https://github.com/worldbench/survey