Reconstruindo a Inteligência Espacial 4D: Uma Revisão

Resumo

A reconstrução da inteligência espacial 4D a partir de observações visuais tem sido há muito tempo uma tarefa central, porém desafiadora, na visão computacional, com amplas aplicações no mundo real. Essas variam desde domínios de entretenimento, como filmes, onde o foco frequentemente está na reconstrução de elementos visuais fundamentais, até a IA incorporada, que enfatiza a modelagem de interações e o realismo físico. Impulsionado pelos rápidos avanços nas representações 3D e nas arquiteturas de aprendizado profundo, o campo evoluiu rapidamente, superando o escopo de pesquisas anteriores. Além disso, as pesquisas existentes raramente oferecem uma análise abrangente da estrutura hierárquica da reconstrução de cenas 4D. Para preencher essa lacuna, apresentamos uma nova perspectiva que organiza os métodos existentes em cinco níveis progressivos de inteligência espacial 4D: (1) Nível 1 -- reconstrução de atributos 3D de baixo nível (por exemplo, profundidade, pose e mapas de pontos); (2) Nível 2 -- reconstrução de componentes de cena 3D (por exemplo, objetos, humanos, estruturas); (3) Nível 3 -- reconstrução de cenas dinâmicas 4D; (4) Nível 4 -- modelagem de interações entre os componentes da cena; e (5) Nível 5 -- incorporação de leis e restrições físicas. Concluímos a pesquisa discutindo os principais desafios em cada nível e destacando direções promissoras para avançar em direção a níveis ainda mais ricos de inteligência espacial 4D. Para acompanhar os desenvolvimentos em andamento, mantemos uma página de projeto atualizada: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.

English

Reconstructing 4D spatial intelligence from visual observations has long been a central yet challenging task in computer vision, with broad real-world applications. These range from entertainment domains like movies, where the focus is often on reconstructing fundamental visual elements, to embodied AI, which emphasizes interaction modeling and physical realism. Fueled by rapid advances in 3D representations and deep learning architectures, the field has evolved quickly, outpacing the scope of previous surveys. Additionally, existing surveys rarely offer a comprehensive analysis of the hierarchical structure of 4D scene reconstruction. To address this gap, we present a new perspective that organizes existing methods into five progressive levels of 4D spatial intelligence: (1) Level 1 -- reconstruction of low-level 3D attributes (e.g., depth, pose, and point maps); (2) Level 2 -- reconstruction of 3D scene components (e.g., objects, humans, structures); (3) Level 3 -- reconstruction of 4D dynamic scenes; (4) Level 4 -- modeling of interactions among scene components; and (5) Level 5 -- incorporation of physical laws and constraints. We conclude the survey by discussing the key challenges at each level and highlighting promising directions for advancing toward even richer levels of 4D spatial intelligence. To track ongoing developments, we maintain an up-to-date project page: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.

Reconstruindo a Inteligência Espacial 4D: Uma Revisão

Reconstructing 4D Spatial Intelligence: A Survey

Resumo

Support