4차원 공간 지능 재구성: 연구 동향 분석
Reconstructing 4D Spatial Intelligence: A Survey
July 28, 2025
저자: Yukang Cao, Jiahao Lu, Zhisheng Huang, Zhuowei Shen, Chengfeng Zhao, Fangzhou Hong, Zhaoxi Chen, Xin Li, Wenping Wang, Yuan Liu, Ziwei Liu
cs.AI
초록
시각적 관찰로부터 4차원 공간 지능을 재구성하는 것은 컴퓨터 비전 분야에서 오랫동안 핵심적이면서도 도전적인 과제로 자리 잡아 왔으며, 다양한 실제 응용 분야에서 널리 활용되고 있습니다. 이러한 응용 분야는 기본적인 시각적 요소의 재구성에 초점을 맞춘 영화와 같은 엔터테인먼트 영역부터, 상호작용 모델링과 물리적 현실감을 강조하는 구체화된 AI에 이르기까지 다양합니다. 3D 표현과 딥러닝 아키텍처의 급속한 발전에 힘입어 이 분야는 빠르게 진화하며 기존의 조사 범위를 뛰어넘었습니다. 또한, 기존의 조사들은 4D 장면 재구성의 계층적 구조에 대한 포괄적인 분석을 거의 제공하지 않습니다. 이러한 격차를 해소하기 위해, 우리는 기존 방법들을 4차원 공간 지능의 다섯 가지 점진적 수준으로 조직화한 새로운 관점을 제시합니다: (1) 수준 1 -- 저수준 3D 속성(예: 깊이, 포즈, 포인트 맵)의 재구성; (2) 수준 2 -- 3D 장면 구성 요소(예: 객체, 인간, 구조물)의 재구성; (3) 수준 3 -- 4D 동적 장면의 재구성; (4) 수준 4 -- 장면 구성 요소 간의 상호작용 모델링; (5) 수준 5 -- 물리적 법칙과 제약 조건의 통합. 우리는 각 수준에서의 주요 도전 과제를 논의하고, 더 풍부한 4차원 공간 지능 수준으로 나아가기 위한 유망한 방향을 강조하며 이 조사를 마무리합니다. 지속적인 발전을 추적하기 위해, 우리는 최신 프로젝트 페이지를 유지 관리합니다: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
English
Reconstructing 4D spatial intelligence from visual observations has long been
a central yet challenging task in computer vision, with broad real-world
applications. These range from entertainment domains like movies, where the
focus is often on reconstructing fundamental visual elements, to embodied AI,
which emphasizes interaction modeling and physical realism. Fueled by rapid
advances in 3D representations and deep learning architectures, the field has
evolved quickly, outpacing the scope of previous surveys. Additionally,
existing surveys rarely offer a comprehensive analysis of the hierarchical
structure of 4D scene reconstruction. To address this gap, we present a new
perspective that organizes existing methods into five progressive levels of 4D
spatial intelligence: (1) Level 1 -- reconstruction of low-level 3D attributes
(e.g., depth, pose, and point maps); (2) Level 2 -- reconstruction of 3D scene
components (e.g., objects, humans, structures); (3) Level 3 -- reconstruction
of 4D dynamic scenes; (4) Level 4 -- modeling of interactions among scene
components; and (5) Level 5 -- incorporation of physical laws and constraints.
We conclude the survey by discussing the key challenges at each level and
highlighting promising directions for advancing toward even richer levels of 4D
spatial intelligence. To track ongoing developments, we maintain an up-to-date
project page: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.