V-DPM: 동적 포인트 맵을 활용한 4D 비디오 재구성
V-DPM: 4D Video Reconstruction with Dynamic Point Maps
January 14, 2026
저자: Edgar Sucar, Eldar Insafutdinov, Zihang Lai, Andrea Vedaldi
cs.AI
초록
3D 형태와 카메라 파라미터를 인코딩하는 DUSt3R 불변 포인트 맵과 같은 강력한 3D 표현은 피드포워드 3D 재구성을 크게 발전시켰습니다. 포인트 맵이 정적 장면을 가정하는 반면, 동적 포인트 맵(DPM)은 장면 운동을 추가로 표현하여 동적 3D 콘텐츠로 이 개념을 확장합니다. 그러나 기존 DPM은 이미지 쌍으로 제한되며, DUSt3R과 마찬가지로 두 개 이상의 뷰가 관련될 경우 최적화를 통한 후처리가 필요합니다. 우리는 DPM이 비디오에 적용될 때 더 유용하다고 주장하며, 이를 입증하기 위해 V-DPM을 소개합니다. 첫째, 표현력을 극대화하고 신경망 예측을 용이하게 하며 사전 학습된 모델의 재사용을 가능하게 하는 방식으로 비디오 입력용 DPM을 공식화하는 방법을 보여줍니다. 둘째, 우리는 최근 강력한 3D 재구성기인 VGGT 위에 이러한 아이디어를 구현합니다. VGGT가 정적 장면으로 학습되었음에도 불구하고, 소량의 합성 데이터만으로도 이를 효과적인 V-DPM 예측기로 적응시키기에 충분함을 보여줍니다. 우리의 접근 방식은 동적 장면에 대한 3D 및 4D 재구성에서 최첨단 성능을 달성합니다. 특히, P3와 같은 VGGT의 최근 동적 확장과 달리 DPM은 동적 깊이뿐만 아니라 장면 내 모든 포인트의 완전한 3D 운동도 복원합니다.
English
Powerful 3D representations such as DUSt3R invariant point maps, which encode 3D shape and camera parameters, have significantly advanced feed forward 3D reconstruction. While point maps assume static scenes, Dynamic Point Maps (DPMs) extend this concept to dynamic 3D content by additionally representing scene motion. However, existing DPMs are limited to image pairs and, like DUSt3R, require post processing via optimization when more than two views are involved. We argue that DPMs are more useful when applied to videos and introduce V-DPM to demonstrate this. First, we show how to formulate DPMs for video input in a way that maximizes representational power, facilitates neural prediction, and enables reuse of pretrained models. Second, we implement these ideas on top of VGGT, a recent and powerful 3D reconstructor. Although VGGT was trained on static scenes, we show that a modest amount of synthetic data is sufficient to adapt it into an effective V-DPM predictor. Our approach achieves state of the art performance in 3D and 4D reconstruction for dynamic scenes. In particular, unlike recent dynamic extensions of VGGT such as P3, DPMs recover not only dynamic depth but also the full 3D motion of every point in the scene.