ChatPaper.aiChatPaper

V-DPM: 動的点群マップを用いた4次元ビデオ再構築

V-DPM: 4D Video Reconstruction with Dynamic Point Maps

January 14, 2026
著者: Edgar Sucar, Eldar Insafutdinov, Zihang Lai, Andrea Vedaldi
cs.AI

要旨

DUSt3Rの不変点マップのように3D形状とカメラパラメータを符号化する強力な3D表現は、フィードフォワード型3D再構成を大幅に進展させてきた。点マップが静的なシーンを想定するのに対し、動的点マップ(DPM)はシーンの動きを追加的に表現することで、この概念を動的3Dコンテンツに拡張する。しかし既存のDPMは画像ペアに限定され、DUSt3Rと同様に、2視点を超える場合には最適化による後処理を必要とする。我々は、DPMが動画に適用された際により有用となると主張し、これを実証するためにV-DPMを提案する。まず、表現力を最大化し、ニューラルネットワークによる予測を容易にし、事前学習モデルの再利用を可能にする動画入力向けDPMの定式化方法を示す。次に、これらの考え方を最近の強力な3D再構成手法であるVGGT上に実装する。VGGTは静的なシーンで学習されているが、少量の合成データによって効果的なV-DPM予測器へ適応可能であることを示す。本手法は動的シーンにおける3Dおよび4D再構成で state-of-the-art の性能を達成する。特に、P3のようなVGGTの最近の動的拡張とは異なり、DPMは動的深度だけでなくシーン内の全点の完全な3D運動も復元する。
English
Powerful 3D representations such as DUSt3R invariant point maps, which encode 3D shape and camera parameters, have significantly advanced feed forward 3D reconstruction. While point maps assume static scenes, Dynamic Point Maps (DPMs) extend this concept to dynamic 3D content by additionally representing scene motion. However, existing DPMs are limited to image pairs and, like DUSt3R, require post processing via optimization when more than two views are involved. We argue that DPMs are more useful when applied to videos and introduce V-DPM to demonstrate this. First, we show how to formulate DPMs for video input in a way that maximizes representational power, facilitates neural prediction, and enables reuse of pretrained models. Second, we implement these ideas on top of VGGT, a recent and powerful 3D reconstructor. Although VGGT was trained on static scenes, we show that a modest amount of synthetic data is sufficient to adapt it into an effective V-DPM predictor. Our approach achieves state of the art performance in 3D and 4D reconstruction for dynamic scenes. In particular, unlike recent dynamic extensions of VGGT such as P3, DPMs recover not only dynamic depth but also the full 3D motion of every point in the scene.
PDF21January 17, 2026