ChatPaper.aiChatPaper

V-DPM: 4D-Videorekonstruktion mit dynamischen Punktkarten

V-DPM: 4D Video Reconstruction with Dynamic Point Maps

January 14, 2026
papers.authors: Edgar Sucar, Eldar Insafutdinov, Zihang Lai, Andrea Vedaldi
cs.AI

papers.abstract

Leistungsstarke 3D-Repräsentationen wie DUSt3R-invariante Punktkarten, die 3D-Form und Kameraparameter kodieren, haben die Vorwärts-3D-Rekonstruktion erheblich vorangetrieben. Während Punktkarten von statischen Szenen ausgehen, erweitern Dynamische Punktkarten (DPMs) dieses Konzept auf dynamische 3D-Inhalte, indem sie zusätzlich die Szenenbewegung abbilden. Allerdings sind bestehende DPMs auf Bildpaare beschränkt und erfordern, ähnlich wie DUSt3R, eine Nachbearbeitung durch Optimierung, wenn mehr als zwei Ansichten beteiligt sind. Wir sind der Ansicht, dass DPMs nützlicher sind, wenn sie auf Videos angewendet werden, und führen V-DPM ein, um dies zu demonstrieren. Erstens zeigen wir, wie sich DPMs für Videoeingaben so formulieren lassen, dass die Repräsentationskraft maximiert, die neuronale Vorhersage erleichtert und die Wiederverwendung vortrainierter Modelle ermöglicht wird. Zweitens setzen wir diese Ideen auf Basis von VGGT, einem aktuellen leistungsfähigen 3D-Rekonstruktor, um. Obwohl VGGT auf statischen Szenen trainiert wurde, zeigen wir, dass eine geringe Menge synthetischer Daten ausreicht, um es in einen effektiven V-DPM-Prädiktor zu adaptieren. Unser Ansatz erreicht state-of-the-art Leistung in der 3D- und 4D-Rekonstruktion dynamischer Szenen. Im Gegensatz zu recent dynamischen Erweiterungen von VGGT wie P3 erfassen DPMs insbesondere nicht nur dynamische Tiefe, sondern auch die vollständige 3D-Bewegung jedes Punktes in der Szene.
English
Powerful 3D representations such as DUSt3R invariant point maps, which encode 3D shape and camera parameters, have significantly advanced feed forward 3D reconstruction. While point maps assume static scenes, Dynamic Point Maps (DPMs) extend this concept to dynamic 3D content by additionally representing scene motion. However, existing DPMs are limited to image pairs and, like DUSt3R, require post processing via optimization when more than two views are involved. We argue that DPMs are more useful when applied to videos and introduce V-DPM to demonstrate this. First, we show how to formulate DPMs for video input in a way that maximizes representational power, facilitates neural prediction, and enables reuse of pretrained models. Second, we implement these ideas on top of VGGT, a recent and powerful 3D reconstructor. Although VGGT was trained on static scenes, we show that a modest amount of synthetic data is sufficient to adapt it into an effective V-DPM predictor. Our approach achieves state of the art performance in 3D and 4D reconstruction for dynamic scenes. In particular, unlike recent dynamic extensions of VGGT such as P3, DPMs recover not only dynamic depth but also the full 3D motion of every point in the scene.
PDF21January 17, 2026