ChatPaper.aiChatPaper

Reconstructie van 4D Ruimtelijke Intelligentie: Een Overzicht

Reconstructing 4D Spatial Intelligence: A Survey

July 28, 2025
Auteurs: Yukang Cao, Jiahao Lu, Zhisheng Huang, Zhuowei Shen, Chengfeng Zhao, Fangzhou Hong, Zhaoxi Chen, Xin Li, Wenping Wang, Yuan Liu, Ziwei Liu
cs.AI

Samenvatting

Het reconstrueren van 4D ruimtelijke intelligentie uit visuele observaties is al lang een centrale maar uitdagende taak in computervisie, met brede toepassingen in de praktijk. Deze variëren van entertainmentdomeinen zoals films, waar de focus vaak ligt op het reconstrueren van fundamentele visuele elementen, tot embodied AI, dat de nadruk legt op interactiemodellering en fysieke realisme. Aangewakkerd door snelle vooruitgang in 3D-representaties en deep learning-architecturen, heeft het veld zich snel ontwikkeld, waardoor het de reikwijdte van eerdere overzichten heeft overtroffen. Bovendien bieden bestaande overzichten zelden een uitgebreide analyse van de hiërarchische structuur van 4D-scènereconstructie. Om dit gat te dichten, presenteren we een nieuw perspectief dat bestaande methoden organiseert in vijf progressieve niveaus van 4D ruimtelijke intelligentie: (1) Niveau 1 – reconstructie van laag-niveau 3D-attributen (bijv. diepte, pose en puntenkaarten); (2) Niveau 2 – reconstructie van 3D-scènecomponenten (bijv. objecten, mensen, structuren); (3) Niveau 3 – reconstructie van 4D-dynamische scènes; (4) Niveau 4 – modellering van interacties tussen scènecomponenten; en (5) Niveau 5 – integratie van fysische wetten en beperkingen. We sluiten het overzicht af door de belangrijkste uitdagingen op elk niveau te bespreken en veelbelovende richtingen te benadrukken voor het bereiken van nog rijkere niveaus van 4D ruimtelijke intelligentie. Om de lopende ontwikkelingen bij te houden, onderhouden we een actuele projectpagina: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
English
Reconstructing 4D spatial intelligence from visual observations has long been a central yet challenging task in computer vision, with broad real-world applications. These range from entertainment domains like movies, where the focus is often on reconstructing fundamental visual elements, to embodied AI, which emphasizes interaction modeling and physical realism. Fueled by rapid advances in 3D representations and deep learning architectures, the field has evolved quickly, outpacing the scope of previous surveys. Additionally, existing surveys rarely offer a comprehensive analysis of the hierarchical structure of 4D scene reconstruction. To address this gap, we present a new perspective that organizes existing methods into five progressive levels of 4D spatial intelligence: (1) Level 1 -- reconstruction of low-level 3D attributes (e.g., depth, pose, and point maps); (2) Level 2 -- reconstruction of 3D scene components (e.g., objects, humans, structures); (3) Level 3 -- reconstruction of 4D dynamic scenes; (4) Level 4 -- modeling of interactions among scene components; and (5) Level 5 -- incorporation of physical laws and constraints. We conclude the survey by discussing the key challenges at each level and highlighting promising directions for advancing toward even richer levels of 4D spatial intelligence. To track ongoing developments, we maintain an up-to-date project page: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
PDF352July 29, 2025