ChatPaper.aiChatPaper

Reconstruction de l'intelligence spatiale 4D : une étude approfondie

Reconstructing 4D Spatial Intelligence: A Survey

July 28, 2025
papers.authors: Yukang Cao, Jiahao Lu, Zhisheng Huang, Zhuowei Shen, Chengfeng Zhao, Fangzhou Hong, Zhaoxi Chen, Xin Li, Wenping Wang, Yuan Liu, Ziwei Liu
cs.AI

papers.abstract

La reconstruction de l'intelligence spatiale 4D à partir d'observations visuelles constitue depuis longtemps une tâche centrale mais complexe en vision par ordinateur, avec de vastes applications dans le monde réel. Celles-ci vont des domaines du divertissement comme le cinéma, où l'accent est souvent mis sur la reconstruction d'éléments visuels fondamentaux, à l'IA incarnée, qui met l'accent sur la modélisation des interactions et le réalisme physique. Stimulé par les progrès rapides des représentations 3D et des architectures d'apprentissage profond, ce domaine a évolué rapidement, dépassant la portée des études précédentes. De plus, les études existantes offrent rarement une analyse complète de la structure hiérarchique de la reconstruction de scènes 4D. Pour combler cette lacune, nous présentons une nouvelle perspective qui organise les méthodes existantes en cinq niveaux progressifs d'intelligence spatiale 4D : (1) Niveau 1 -- reconstruction des attributs 3D de bas niveau (par exemple, profondeur, pose et cartes de points) ; (2) Niveau 2 -- reconstruction des composants de scène 3D (par exemple, objets, humains, structures) ; (3) Niveau 3 -- reconstruction de scènes dynamiques 4D ; (4) Niveau 4 -- modélisation des interactions entre les composants de la scène ; et (5) Niveau 5 -- intégration des lois et contraintes physiques. Nous concluons cette étude en discutant des principaux défis à chaque niveau et en mettant en lumière des directions prometteuses pour progresser vers des niveaux encore plus riches d'intelligence spatiale 4D. Pour suivre les développements en cours, nous maintenons une page de projet à jour : https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
English
Reconstructing 4D spatial intelligence from visual observations has long been a central yet challenging task in computer vision, with broad real-world applications. These range from entertainment domains like movies, where the focus is often on reconstructing fundamental visual elements, to embodied AI, which emphasizes interaction modeling and physical realism. Fueled by rapid advances in 3D representations and deep learning architectures, the field has evolved quickly, outpacing the scope of previous surveys. Additionally, existing surveys rarely offer a comprehensive analysis of the hierarchical structure of 4D scene reconstruction. To address this gap, we present a new perspective that organizes existing methods into five progressive levels of 4D spatial intelligence: (1) Level 1 -- reconstruction of low-level 3D attributes (e.g., depth, pose, and point maps); (2) Level 2 -- reconstruction of 3D scene components (e.g., objects, humans, structures); (3) Level 3 -- reconstruction of 4D dynamic scenes; (4) Level 4 -- modeling of interactions among scene components; and (5) Level 5 -- incorporation of physical laws and constraints. We conclude the survey by discussing the key challenges at each level and highlighting promising directions for advancing toward even richer levels of 4D spatial intelligence. To track ongoing developments, we maintain an up-to-date project page: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
PDF292July 29, 2025