ChatPaper.aiChatPaper

Modelagem 3D e 4D de Mundos: Uma Revisão

3D and 4D World Modeling: A Survey

September 4, 2025
Autores: Lingdong Kong, Wesley Yang, Jianbiao Mei, Youquan Liu, Ao Liang, Dekai Zhu, Dongyue Lu, Wei Yin, Xiaotao Hu, Mingkai Jia, Junyuan Deng, Kaiwen Zhang, Yang Wu, Tianyi Yan, Shenyuan Gao, Song Wang, Linfeng Li, Liang Pan, Yong Liu, Jianke Zhu, Wei Tsang Ooi, Steven C. H. Hoi, Ziwei Liu
cs.AI

Resumo

A modelagem de mundos tornou-se um pilar fundamental na pesquisa de IA, permitindo que agentes compreendam, representem e prevejam os ambientes dinâmicos em que estão inseridos. Embora trabalhos anteriores tenham enfatizado principalmente métodos generativos para dados de imagens e vídeos 2D, eles negligenciam o crescente corpo de trabalhos que utiliza representações nativas 3D e 4D, como imagens RGB-D, grades de ocupação e nuvens de pontos LiDAR, para a modelagem de cenas em grande escala. Ao mesmo tempo, a ausência de uma definição padronizada e de uma taxonomia para "modelos de mundo" resultou em afirmações fragmentadas e, por vezes, inconsistentes na literatura. Esta revisão aborda essas lacunas ao apresentar o primeiro estudo abrangente dedicado explicitamente à modelagem e geração de mundos 3D e 4D. Estabelecemos definições precisas, introduzimos uma taxonomia estruturada que abrange abordagens baseadas em vídeo (VideoGen), ocupação (OccGen) e LiDAR (LiDARGen), e resumimos sistematicamente conjuntos de dados e métricas de avaliação adaptados a cenários 3D/4D. Além disso, discutimos aplicações práticas, identificamos desafios em aberto e destacamos direções de pesquisa promissoras, com o objetivo de fornecer uma referência coerente e fundamental para o avanço do campo. Um resumo sistemático da literatura existente está disponível em https://github.com/worldbench/survey.
English
World modeling has become a cornerstone in AI research, enabling agents to understand, represent, and predict the dynamic environments they inhabit. While prior work largely emphasizes generative methods for 2D image and video data, they overlook the rapidly growing body of work that leverages native 3D and 4D representations such as RGB-D imagery, occupancy grids, and LiDAR point clouds for large-scale scene modeling. At the same time, the absence of a standardized definition and taxonomy for ``world models'' has led to fragmented and sometimes inconsistent claims in the literature. This survey addresses these gaps by presenting the first comprehensive review explicitly dedicated to 3D and 4D world modeling and generation. We establish precise definitions, introduce a structured taxonomy spanning video-based (VideoGen), occupancy-based (OccGen), and LiDAR-based (LiDARGen) approaches, and systematically summarize datasets and evaluation metrics tailored to 3D/4D settings. We further discuss practical applications, identify open challenges, and highlight promising research directions, aiming to provide a coherent and foundational reference for advancing the field. A systematic summary of existing literature is available at https://github.com/worldbench/survey
PDF474September 11, 2025