ChatPaper.aiChatPaper

V-DPM: Reconstrucción de Video 4D con Mapas de Puntos Dinámicos

V-DPM: 4D Video Reconstruction with Dynamic Point Maps

January 14, 2026
Autores: Edgar Sucar, Eldar Insafutdinov, Zihang Lai, Andrea Vedaldi
cs.AI

Resumen

Las representaciones 3D potentes como los mapas de puntos invariantes DUSt3R, que codifican la forma 3D y los parámetros de la cámara, han avanzado significativamente la reconstrucción 3D de avance directo. Si bien los mapas de puntos asumen escenas estáticas, los Mapas de Puntos Dinámicos (DPM) extienden este concepto al contenido 3D dinámico representando adicionalmente el movimiento de la escena. Sin embargo, los DPM existentes se limitan a pares de imágenes y, al igual que DUSt3R, requieren un postprocesamiento mediante optimización cuando intervienen más de dos vistas. Argumentamos que los DPM son más útiles cuando se aplican a videos y presentamos V-DPM para demostrarlo. Primero, mostramos cómo formular DPM para entrada de video de manera que se maximice el poder de representación, se facilite la predicción neuronal y se permita la reutilización de modelos preentrenados. En segundo lugar, implementamos estas ideas sobre VGGT, un reconstructor 3D reciente y potente. Aunque VGGT fue entrenado en escenas estáticas, demostramos que una cantidad modesta de datos sintéticos es suficiente para adaptarlo en un predictor V-DPM efectivo. Nuestro enfoque logra un rendimiento de vanguardia en la reconstrucción 3D y 4D para escenas dinámicas. En particular, a diferencia de las extensiones dinámicas recientes de VGGT como P3, los DPM recuperan no solo la profundidad dinámica sino también el movimiento 3D completo de cada punto de la escena.
English
Powerful 3D representations such as DUSt3R invariant point maps, which encode 3D shape and camera parameters, have significantly advanced feed forward 3D reconstruction. While point maps assume static scenes, Dynamic Point Maps (DPMs) extend this concept to dynamic 3D content by additionally representing scene motion. However, existing DPMs are limited to image pairs and, like DUSt3R, require post processing via optimization when more than two views are involved. We argue that DPMs are more useful when applied to videos and introduce V-DPM to demonstrate this. First, we show how to formulate DPMs for video input in a way that maximizes representational power, facilitates neural prediction, and enables reuse of pretrained models. Second, we implement these ideas on top of VGGT, a recent and powerful 3D reconstructor. Although VGGT was trained on static scenes, we show that a modest amount of synthetic data is sufficient to adapt it into an effective V-DPM predictor. Our approach achieves state of the art performance in 3D and 4D reconstruction for dynamic scenes. In particular, unlike recent dynamic extensions of VGGT such as P3, DPMs recover not only dynamic depth but also the full 3D motion of every point in the scene.
PDF21January 17, 2026