ChatPaper.aiChatPaper

Rekonstruktion der 4D-räumlichen Intelligenz: Ein Überblick

Reconstructing 4D Spatial Intelligence: A Survey

July 28, 2025
papers.authors: Yukang Cao, Jiahao Lu, Zhisheng Huang, Zhuowei Shen, Chengfeng Zhao, Fangzhou Hong, Zhaoxi Chen, Xin Li, Wenping Wang, Yuan Liu, Ziwei Liu
cs.AI

papers.abstract

Die Rekonstruktion von 4D-räumlicher Intelligenz aus visuellen Beobachtungen ist seit langem eine zentrale, aber herausfordernde Aufgabe in der Computer Vision mit breiten Anwendungen in der realen Welt. Diese reichen von Unterhaltungsbereichen wie Filmen, bei denen der Fokus oft auf der Rekonstruktion grundlegender visueller Elemente liegt, bis hin zu verkörperter KI, die Interaktionsmodellierung und physikalische Realismus betont. Angetrieben durch rasche Fortschritte in 3D-Darstellungen und Deep-Learning-Architekturen hat sich das Feld schnell weiterentwickelt und den Rahmen früherer Übersichtsarbeiten überschritten. Zudem bieten bestehende Übersichtsarbeiten selten eine umfassende Analyse der hierarchischen Struktur der 4D-Szenenrekonstruktion. Um diese Lücke zu schließen, präsentieren wir eine neue Perspektive, die bestehende Methoden in fünf progressive Ebenen der 4D-räumlichen Intelligenz einteilt: (1) Ebene 1 – Rekonstruktion von Low-Level-3D-Attributen (z. B. Tiefe, Pose und Punktkarten); (2) Ebene 2 – Rekonstruktion von 3D-Szenenkomponenten (z. B. Objekte, Menschen, Strukturen); (3) Ebene 3 – Rekonstruktion von 4D-dynamischen Szenen; (4) Ebene 4 – Modellierung von Interaktionen zwischen Szenenkomponenten; und (5) Ebene 5 – Einbeziehung physikalischer Gesetze und Einschränkungen. Wir schließen die Übersicht mit einer Diskussion der zentralen Herausforderungen auf jeder Ebene und heben vielversprechende Richtungen hervor, um noch reichere Ebenen der 4D-räumlichen Intelligenz zu erreichen. Um laufende Entwicklungen zu verfolgen, pflegen wir eine aktuelle Projektseite: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
English
Reconstructing 4D spatial intelligence from visual observations has long been a central yet challenging task in computer vision, with broad real-world applications. These range from entertainment domains like movies, where the focus is often on reconstructing fundamental visual elements, to embodied AI, which emphasizes interaction modeling and physical realism. Fueled by rapid advances in 3D representations and deep learning architectures, the field has evolved quickly, outpacing the scope of previous surveys. Additionally, existing surveys rarely offer a comprehensive analysis of the hierarchical structure of 4D scene reconstruction. To address this gap, we present a new perspective that organizes existing methods into five progressive levels of 4D spatial intelligence: (1) Level 1 -- reconstruction of low-level 3D attributes (e.g., depth, pose, and point maps); (2) Level 2 -- reconstruction of 3D scene components (e.g., objects, humans, structures); (3) Level 3 -- reconstruction of 4D dynamic scenes; (4) Level 4 -- modeling of interactions among scene components; and (5) Level 5 -- incorporation of physical laws and constraints. We conclude the survey by discussing the key challenges at each level and highlighting promising directions for advancing toward even richer levels of 4D spatial intelligence. To track ongoing developments, we maintain an up-to-date project page: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
PDF292July 29, 2025