V-DPM: Ricostruzione Video 4D con Mappe Dinamiche di Punti
V-DPM: 4D Video Reconstruction with Dynamic Point Maps
January 14, 2026
Autori: Edgar Sucar, Eldar Insafutdinov, Zihang Lai, Andrea Vedaldi
cs.AI
Abstract
Rappresentazioni 3D potenti come le mappe di punti invarianti DUSt3R, che codificano forma 3D e parametri della fotocamera, hanno fatto progredire significativamente la ricostruzione 3D feed-forward. Sebbene le mappe di punti presuppongano scene statiche, le Mappe di Punti Dinamiche (DPM) estendono questo concetto a contenuti 3D dinamici rappresentando anche il movimento della scena. Tuttavia, le DPM esistenti sono limitate a coppie di immagini e, come DUSt3R, richiedono post-elaborazione tramite ottimizzazione quando sono coinvolte più di due viste. Sosteniamo che le DPM siano più utili se applicate ai video e introduciamo V-DPM per dimostrarlo. In primo luogo, mostriamo come formulare le DPM per input video in modo da massimizzare il potere rappresentativo, facilitare la previsione neurale e consentire il riutilizzo di modelli pre-addestrati. In secondo luogo, implementiamo queste idee su VGGT, un recente e potente ricostruttore 3D. Sebbene VGGT sia stato addestrato su scene statiche, dimostriamo che una modesta quantità di dati sintetici è sufficiente per adattarlo in un efficace predittore V-DPM. Il nostro approccio raggiunge prestazioni all'avanguardia nella ricostruzione 3D e 4D per scene dinamiche. In particolare, a differenza di recenti estensioni dinamiche di VGGT come P3, le DPM recuperano non solo la profondità dinamica ma anche il movimento 3D completo di ogni punto della scena.
English
Powerful 3D representations such as DUSt3R invariant point maps, which encode 3D shape and camera parameters, have significantly advanced feed forward 3D reconstruction. While point maps assume static scenes, Dynamic Point Maps (DPMs) extend this concept to dynamic 3D content by additionally representing scene motion. However, existing DPMs are limited to image pairs and, like DUSt3R, require post processing via optimization when more than two views are involved. We argue that DPMs are more useful when applied to videos and introduce V-DPM to demonstrate this. First, we show how to formulate DPMs for video input in a way that maximizes representational power, facilitates neural prediction, and enables reuse of pretrained models. Second, we implement these ideas on top of VGGT, a recent and powerful 3D reconstructor. Although VGGT was trained on static scenes, we show that a modest amount of synthetic data is sufficient to adapt it into an effective V-DPM predictor. Our approach achieves state of the art performance in 3D and 4D reconstruction for dynamic scenes. In particular, unlike recent dynamic extensions of VGGT such as P3, DPMs recover not only dynamic depth but also the full 3D motion of every point in the scene.