V-DPM : Reconstruction vidéo 4D avec cartes de points dynamiques
V-DPM: 4D Video Reconstruction with Dynamic Point Maps
January 14, 2026
papers.authors: Edgar Sucar, Eldar Insafutdinov, Zihang Lai, Andrea Vedaldi
cs.AI
papers.abstract
Des représentations 3D puissantes comme les cartes de points invariants DUSt3R, qui codent la forme 3D et les paramètres de caméra, ont considérablement fait progresser la reconstruction 3D par propagation directe. Alors que les cartes de points supposent des scènes statiques, les Cartes de Points Dynamiques (DPM) étendent ce concept au contenu 3D dynamique en représentant également le mouvement de la scène. Cependant, les DPM existantes se limitent à des paires d'images et, comme DUSt3R, nécessitent un post-traitement par optimisation lorsque plus de deux vues sont impliquées. Nous soutenons que les DPM sont plus utiles lorsqu'elles sont appliquées aux vidéos et nous introduisons V-DPM pour le démontrer. Premièrement, nous montrons comment formuler des DPM pour une entrée vidéo de manière à maximiser la puissance de représentation, à faciliter la prédiction neuronale et à permettre la réutilisation de modèles pré-entraînés. Deuxièmement, nous implémentons ces idées sur la base de VGGT, un reconstructeur 3D récent et puissant. Bien que VGGT ait été entraîné sur des scènes statiques, nous montrons qu'une quantité modeste de données synthétiques suffit à l'adapter en un prédicteur V-DPM efficace. Notre approche obtient des performances de pointe en reconstruction 3D et 4D pour les scènes dynamiques. En particulier, contrairement aux extensions dynamiques récentes de VGGT telles que P3, les DPM récupèrent non seulement la profondeur dynamique mais aussi le mouvement 3D complet de chaque point de la scène.
English
Powerful 3D representations such as DUSt3R invariant point maps, which encode 3D shape and camera parameters, have significantly advanced feed forward 3D reconstruction. While point maps assume static scenes, Dynamic Point Maps (DPMs) extend this concept to dynamic 3D content by additionally representing scene motion. However, existing DPMs are limited to image pairs and, like DUSt3R, require post processing via optimization when more than two views are involved. We argue that DPMs are more useful when applied to videos and introduce V-DPM to demonstrate this. First, we show how to formulate DPMs for video input in a way that maximizes representational power, facilitates neural prediction, and enables reuse of pretrained models. Second, we implement these ideas on top of VGGT, a recent and powerful 3D reconstructor. Although VGGT was trained on static scenes, we show that a modest amount of synthetic data is sufficient to adapt it into an effective V-DPM predictor. Our approach achieves state of the art performance in 3D and 4D reconstruction for dynamic scenes. In particular, unlike recent dynamic extensions of VGGT such as P3, DPMs recover not only dynamic depth but also the full 3D motion of every point in the scene.