ChatPaper.aiChatPaper

V-DPM: 4D реконструкция видео с использованием динамических карт точек

V-DPM: 4D Video Reconstruction with Dynamic Point Maps

January 14, 2026
Авторы: Edgar Sucar, Eldar Insafutdinov, Zihang Lai, Andrea Vedaldi
cs.AI

Аннотация

Мощные 3D-представления, такие как инвариантные карты точек DUSt3R, кодирующие трехмерную форму и параметры камеры, значительно продвинули прямое 3D-реконструирование. Хотя карты точек предполагают статичные сцены, Динамические Карты Точек (DPM) расширяют эту концепцию на динамический 3D-контент, дополнительно представляя движение сцены. Однако существующие DPM ограничены парами изображений и, как и DUSt3R, требуют последующей обработки методом оптимизации, когда задействовано более двух ракурсов. Мы полагаем, что DPM более полезны при применении к видео, и представляем V-DPM для демонстрации этого. Во-первых, мы показываем, как сформулировать DPM для видео-ввода таким образом, чтобы максимизировать выразительную способность, облегчить нейронное предсказание и обеспечить повторное использование предварительно обученных моделей. Во-вторых, мы реализуем эти идеи на основе VGGT — современного и мощного 3D-реконструктора. Хотя VGGT обучалась на статичных сценах, мы показываем, что умеренного количества синтетических данных достаточно, чтобы адаптировать её в эффективный предсказатель V-DPM. Наш подход достигает передовых результатов в 3D- и 4D-реконструкции динамических сцен. В частности, в отличие от недавних динамических расширений VGGT, таких как P3, DPM восстанавливают не только динамическую глубину, но и полное 3D-движение каждой точки сцены.
English
Powerful 3D representations such as DUSt3R invariant point maps, which encode 3D shape and camera parameters, have significantly advanced feed forward 3D reconstruction. While point maps assume static scenes, Dynamic Point Maps (DPMs) extend this concept to dynamic 3D content by additionally representing scene motion. However, existing DPMs are limited to image pairs and, like DUSt3R, require post processing via optimization when more than two views are involved. We argue that DPMs are more useful when applied to videos and introduce V-DPM to demonstrate this. First, we show how to formulate DPMs for video input in a way that maximizes representational power, facilitates neural prediction, and enables reuse of pretrained models. Second, we implement these ideas on top of VGGT, a recent and powerful 3D reconstructor. Although VGGT was trained on static scenes, we show that a modest amount of synthetic data is sufficient to adapt it into an effective V-DPM predictor. Our approach achieves state of the art performance in 3D and 4D reconstruction for dynamic scenes. In particular, unlike recent dynamic extensions of VGGT such as P3, DPMs recover not only dynamic depth but also the full 3D motion of every point in the scene.
PDF21January 17, 2026