3D- und 4D-Weltmodellierung: Ein Überblick
3D and 4D World Modeling: A Survey
September 4, 2025
papers.authors: Lingdong Kong, Wesley Yang, Jianbiao Mei, Youquan Liu, Ao Liang, Dekai Zhu, Dongyue Lu, Wei Yin, Xiaotao Hu, Mingkai Jia, Junyuan Deng, Kaiwen Zhang, Yang Wu, Tianyi Yan, Shenyuan Gao, Song Wang, Linfeng Li, Liang Pan, Yong Liu, Jianke Zhu, Wei Tsang Ooi, Steven C. H. Hoi, Ziwei Liu
cs.AI
papers.abstract
Die Modellierung von Welten hat sich zu einem Eckpfeiler der KI-Forschung entwickelt, der es Agenten ermöglicht, die dynamischen Umgebungen, in denen sie agieren, zu verstehen, darzustellen und vorherzusagen. Während frühere Arbeiten sich weitgehend auf generative Methoden für 2D-Bild- und Videodaten konzentrierten, übersehen sie die zunehmend wachsende Anzahl von Ansätzen, die native 3D- und 4D-Repräsentationen wie RGB-D-Bilder, Belegungsraster und LiDAR-Punktwolken für die großflächige Szenenmodellierung nutzen. Gleichzeitig hat das Fehlen einer standardisierten Definition und Taxonomie für „Weltmodelle“ zu fragmentierten und teilweise inkonsistenten Aussagen in der Literatur geführt. Diese Übersichtsarbeit schließt diese Lücken, indem sie die erste umfassende Überprüfung vorstellt, die explizit der 3D- und 4D-Weltmodellierung und -generierung gewidmet ist. Wir etablieren präzise Definitionen, führen eine strukturierte Taxonomie ein, die videobasierte (VideoGen), belegungsbasierte (OccGen) und LiDAR-basierte (LiDARGen) Ansätze umfasst, und fassen systematisch Datensätze und Bewertungsmetriken zusammen, die auf 3D/4D-Szenarien zugeschnitten sind. Darüber hinaus diskutieren wir praktische Anwendungen, identifizieren offene Herausforderungen und heben vielversprechende Forschungsrichtungen hervor, mit dem Ziel, eine kohärente und grundlegende Referenz für die Weiterentwicklung des Feldes zu bieten. Eine systematische Zusammenfassung der bestehenden Literatur ist unter https://github.com/worldbench/survey verfügbar.
English
World modeling has become a cornerstone in AI research, enabling agents to
understand, represent, and predict the dynamic environments they inhabit. While
prior work largely emphasizes generative methods for 2D image and video data,
they overlook the rapidly growing body of work that leverages native 3D and 4D
representations such as RGB-D imagery, occupancy grids, and LiDAR point clouds
for large-scale scene modeling. At the same time, the absence of a standardized
definition and taxonomy for ``world models'' has led to fragmented and
sometimes inconsistent claims in the literature. This survey addresses these
gaps by presenting the first comprehensive review explicitly dedicated to 3D
and 4D world modeling and generation. We establish precise definitions,
introduce a structured taxonomy spanning video-based (VideoGen),
occupancy-based (OccGen), and LiDAR-based (LiDARGen) approaches, and
systematically summarize datasets and evaluation metrics tailored to 3D/4D
settings. We further discuss practical applications, identify open challenges,
and highlight promising research directions, aiming to provide a coherent and
foundational reference for advancing the field. A systematic summary of
existing literature is available at https://github.com/worldbench/survey