Reconstruindo a Inteligência Espacial 4D: Uma Revisão
Reconstructing 4D Spatial Intelligence: A Survey
July 28, 2025
Autores: Yukang Cao, Jiahao Lu, Zhisheng Huang, Zhuowei Shen, Chengfeng Zhao, Fangzhou Hong, Zhaoxi Chen, Xin Li, Wenping Wang, Yuan Liu, Ziwei Liu
cs.AI
Resumo
A reconstrução da inteligência espacial 4D a partir de observações visuais tem sido há muito tempo uma tarefa central, porém desafiadora, na visão computacional, com amplas aplicações no mundo real. Essas variam desde domínios de entretenimento, como filmes, onde o foco frequentemente está na reconstrução de elementos visuais fundamentais, até a IA incorporada, que enfatiza a modelagem de interações e o realismo físico. Impulsionado pelos rápidos avanços nas representações 3D e nas arquiteturas de aprendizado profundo, o campo evoluiu rapidamente, superando o escopo de pesquisas anteriores. Além disso, as pesquisas existentes raramente oferecem uma análise abrangente da estrutura hierárquica da reconstrução de cenas 4D. Para preencher essa lacuna, apresentamos uma nova perspectiva que organiza os métodos existentes em cinco níveis progressivos de inteligência espacial 4D: (1) Nível 1 -- reconstrução de atributos 3D de baixo nível (por exemplo, profundidade, pose e mapas de pontos); (2) Nível 2 -- reconstrução de componentes de cena 3D (por exemplo, objetos, humanos, estruturas); (3) Nível 3 -- reconstrução de cenas dinâmicas 4D; (4) Nível 4 -- modelagem de interações entre os componentes da cena; e (5) Nível 5 -- incorporação de leis e restrições físicas. Concluímos a pesquisa discutindo os principais desafios em cada nível e destacando direções promissoras para avançar em direção a níveis ainda mais ricos de inteligência espacial 4D. Para acompanhar os desenvolvimentos em andamento, mantemos uma página de projeto atualizada: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
English
Reconstructing 4D spatial intelligence from visual observations has long been
a central yet challenging task in computer vision, with broad real-world
applications. These range from entertainment domains like movies, where the
focus is often on reconstructing fundamental visual elements, to embodied AI,
which emphasizes interaction modeling and physical realism. Fueled by rapid
advances in 3D representations and deep learning architectures, the field has
evolved quickly, outpacing the scope of previous surveys. Additionally,
existing surveys rarely offer a comprehensive analysis of the hierarchical
structure of 4D scene reconstruction. To address this gap, we present a new
perspective that organizes existing methods into five progressive levels of 4D
spatial intelligence: (1) Level 1 -- reconstruction of low-level 3D attributes
(e.g., depth, pose, and point maps); (2) Level 2 -- reconstruction of 3D scene
components (e.g., objects, humans, structures); (3) Level 3 -- reconstruction
of 4D dynamic scenes; (4) Level 4 -- modeling of interactions among scene
components; and (5) Level 5 -- incorporation of physical laws and constraints.
We conclude the survey by discussing the key challenges at each level and
highlighting promising directions for advancing toward even richer levels of 4D
spatial intelligence. To track ongoing developments, we maintain an up-to-date
project page: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.