Modelado de Mundos en 3D y 4D: Una Revisión
3D and 4D World Modeling: A Survey
September 4, 2025
Autores: Lingdong Kong, Wesley Yang, Jianbiao Mei, Youquan Liu, Ao Liang, Dekai Zhu, Dongyue Lu, Wei Yin, Xiaotao Hu, Mingkai Jia, Junyuan Deng, Kaiwen Zhang, Yang Wu, Tianyi Yan, Shenyuan Gao, Song Wang, Linfeng Li, Liang Pan, Yong Liu, Jianke Zhu, Wei Tsang Ooi, Steven C. H. Hoi, Ziwei Liu
cs.AI
Resumen
La modelización del mundo se ha convertido en un pilar fundamental en la investigación de IA, permitiendo a los agentes comprender, representar y predecir los entornos dinámicos en los que operan. Si bien trabajos previos han enfatizado principalmente métodos generativos para datos de imágenes y videos en 2D, han pasado por alto el creciente cuerpo de investigación que aprovecha representaciones nativas en 3D y 4D, como imágenes RGB-D, mallas de ocupación y nubes de puntos LiDAR, para la modelización de escenas a gran escala. Al mismo tiempo, la ausencia de una definición y taxonomía estandarizadas para los "modelos del mundo" ha llevado a afirmaciones fragmentadas y, en ocasiones, inconsistentes en la literatura. Esta revisión aborda estas brechas al presentar la primera revisión exhaustiva dedicada explícitamente a la modelización y generación de mundos en 3D y 4D. Establecemos definiciones precisas, introducimos una taxonomía estructurada que abarca enfoques basados en video (VideoGen), en ocupación (OccGen) y en LiDAR (LiDARGen), y resumimos sistemáticamente conjuntos de datos y métricas de evaluación adaptados a entornos 3D/4D. Además, discutimos aplicaciones prácticas, identificamos desafíos abiertos y destacamos direcciones de investigación prometedoras, con el objetivo de proporcionar una referencia coherente y fundamental para avanzar en este campo. Un resumen sistemático de la literatura existente está disponible en https://github.com/worldbench/survey.
English
World modeling has become a cornerstone in AI research, enabling agents to
understand, represent, and predict the dynamic environments they inhabit. While
prior work largely emphasizes generative methods for 2D image and video data,
they overlook the rapidly growing body of work that leverages native 3D and 4D
representations such as RGB-D imagery, occupancy grids, and LiDAR point clouds
for large-scale scene modeling. At the same time, the absence of a standardized
definition and taxonomy for ``world models'' has led to fragmented and
sometimes inconsistent claims in the literature. This survey addresses these
gaps by presenting the first comprehensive review explicitly dedicated to 3D
and 4D world modeling and generation. We establish precise definitions,
introduce a structured taxonomy spanning video-based (VideoGen),
occupancy-based (OccGen), and LiDAR-based (LiDARGen) approaches, and
systematically summarize datasets and evaluation metrics tailored to 3D/4D
settings. We further discuss practical applications, identify open challenges,
and highlight promising research directions, aiming to provide a coherent and
foundational reference for advancing the field. A systematic summary of
existing literature is available at https://github.com/worldbench/survey