ChatPaper.aiChatPaper

Ricostruire l'Intelligenza Spaziale 4D: Una Rassegna

Reconstructing 4D Spatial Intelligence: A Survey

July 28, 2025
Autori: Yukang Cao, Jiahao Lu, Zhisheng Huang, Zhuowei Shen, Chengfeng Zhao, Fangzhou Hong, Zhaoxi Chen, Xin Li, Wenping Wang, Yuan Liu, Ziwei Liu
cs.AI

Abstract

La ricostruzione dell'intelligenza spaziale 4D dalle osservazioni visive è da tempo un compito centrale ma impegnativo nel campo della visione artificiale, con ampie applicazioni nel mondo reale. Queste spaziano dai domini dell'intrattenimento come i film, dove l'attenzione è spesso sulla ricostruzione di elementi visivi fondamentali, all'AI incarnata, che enfatizza la modellazione delle interazioni e il realismo fisico. Alimentato dai rapidi progressi nelle rappresentazioni 3D e nelle architetture di deep learning, il campo si è evoluto rapidamente, superando l'ambito delle precedenti survey. Inoltre, le survey esistenti raramente offrono un'analisi completa della struttura gerarchica della ricostruzione di scene 4D. Per colmare questa lacuna, presentiamo una nuova prospettiva che organizza i metodi esistenti in cinque livelli progressivi di intelligenza spaziale 4D: (1) Livello 1 -- ricostruzione di attributi 3D di basso livello (ad esempio, profondità, pose e mappe di punti); (2) Livello 2 -- ricostruzione di componenti di scene 3D (ad esempio, oggetti, esseri umani, strutture); (3) Livello 3 -- ricostruzione di scene dinamiche 4D; (4) Livello 4 -- modellazione delle interazioni tra i componenti della scena; e (5) Livello 5 -- incorporazione di leggi e vincoli fisici. Concludiamo la survey discutendo le principali sfide a ciascun livello e evidenziando le direzioni promettenti per progredire verso livelli ancora più ricchi di intelligenza spaziale 4D. Per monitorare gli sviluppi in corso, manteniamo una pagina di progetto aggiornata: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
English
Reconstructing 4D spatial intelligence from visual observations has long been a central yet challenging task in computer vision, with broad real-world applications. These range from entertainment domains like movies, where the focus is often on reconstructing fundamental visual elements, to embodied AI, which emphasizes interaction modeling and physical realism. Fueled by rapid advances in 3D representations and deep learning architectures, the field has evolved quickly, outpacing the scope of previous surveys. Additionally, existing surveys rarely offer a comprehensive analysis of the hierarchical structure of 4D scene reconstruction. To address this gap, we present a new perspective that organizes existing methods into five progressive levels of 4D spatial intelligence: (1) Level 1 -- reconstruction of low-level 3D attributes (e.g., depth, pose, and point maps); (2) Level 2 -- reconstruction of 3D scene components (e.g., objects, humans, structures); (3) Level 3 -- reconstruction of 4D dynamic scenes; (4) Level 4 -- modeling of interactions among scene components; and (5) Level 5 -- incorporation of physical laws and constraints. We conclude the survey by discussing the key challenges at each level and highlighting promising directions for advancing toward even richer levels of 4D spatial intelligence. To track ongoing developments, we maintain an up-to-date project page: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
PDF332July 29, 2025