Reconstrucción de la Inteligencia Espacial 4D: Una Revisión
Reconstructing 4D Spatial Intelligence: A Survey
July 28, 2025
Autores: Yukang Cao, Jiahao Lu, Zhisheng Huang, Zhuowei Shen, Chengfeng Zhao, Fangzhou Hong, Zhaoxi Chen, Xin Li, Wenping Wang, Yuan Liu, Ziwei Liu
cs.AI
Resumen
La reconstrucción de la inteligencia espacial 4D a partir de observaciones visuales ha sido durante mucho tiempo una tarea central pero desafiante en el campo de la visión por computadora, con amplias aplicaciones en el mundo real. Estas van desde dominios de entretenimiento como el cine, donde el enfoque suele estar en la reconstrucción de elementos visuales fundamentales, hasta la inteligencia artificial encarnada, que enfatiza el modelado de interacciones y el realismo físico. Impulsado por los rápidos avances en representaciones 3D y arquitecturas de aprendizaje profundo, el campo ha evolucionado rápidamente, superando el alcance de estudios previos. Además, los estudios existentes rara vez ofrecen un análisis exhaustivo de la estructura jerárquica de la reconstrucción de escenas 4D. Para abordar esta brecha, presentamos una nueva perspectiva que organiza los métodos existentes en cinco niveles progresivos de inteligencia espacial 4D: (1) Nivel 1 — reconstrucción de atributos 3D de bajo nivel (por ejemplo, profundidad, pose y mapas de puntos); (2) Nivel 2 — reconstrucción de componentes de escenas 3D (por ejemplo, objetos, humanos, estructuras); (3) Nivel 3 — reconstrucción de escenas dinámicas 4D; (4) Nivel 4 — modelado de interacciones entre componentes de la escena; y (5) Nivel 5 — incorporación de leyes y restricciones físicas. Concluimos el estudio discutiendo los principales desafíos en cada nivel y destacando direcciones prometedoras para avanzar hacia niveles aún más ricos de inteligencia espacial 4D. Para seguir los desarrollos en curso, mantenemos una página de proyecto actualizada: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
English
Reconstructing 4D spatial intelligence from visual observations has long been
a central yet challenging task in computer vision, with broad real-world
applications. These range from entertainment domains like movies, where the
focus is often on reconstructing fundamental visual elements, to embodied AI,
which emphasizes interaction modeling and physical realism. Fueled by rapid
advances in 3D representations and deep learning architectures, the field has
evolved quickly, outpacing the scope of previous surveys. Additionally,
existing surveys rarely offer a comprehensive analysis of the hierarchical
structure of 4D scene reconstruction. To address this gap, we present a new
perspective that organizes existing methods into five progressive levels of 4D
spatial intelligence: (1) Level 1 -- reconstruction of low-level 3D attributes
(e.g., depth, pose, and point maps); (2) Level 2 -- reconstruction of 3D scene
components (e.g., objects, humans, structures); (3) Level 3 -- reconstruction
of 4D dynamic scenes; (4) Level 4 -- modeling of interactions among scene
components; and (5) Level 5 -- incorporation of physical laws and constraints.
We conclude the survey by discussing the key challenges at each level and
highlighting promising directions for advancing toward even richer levels of 4D
spatial intelligence. To track ongoing developments, we maintain an up-to-date
project page: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.