V-DPM: Reconstrução 4D de Vídeo com Mapas de Pontos Dinâmicos

Resumo

Representações 3D poderosas, como os mapas de pontos invariantes DUSt3R, que codificam a forma 3D e os parâmetros da câmera, avançaram significativamente a reconstrução 3D *feed-forward*. Embora os mapas de pontos assumam cenas estáticas, os Mapas de Pontos Dinâmicos (DPMs) estendem este conceito para conteúdo 3D dinâmico, representando adicionalmente o movimento da cena. No entanto, os DPMs existentes são limitados a pares de imagens e, como o DUSt3R, exigem pós-processamento via otimização quando mais de duas visualizações estão envolvidas. Argumentamos que os DPMs são mais úteis quando aplicados a vídeos e introduzimos o V-DPM para demonstrar isso. Primeiro, mostramos como formular DPMs para entrada de vídeo de forma a maximizar o poder representacional, facilitar a predição neural e permitir a reutilização de modelos pré-treinados. Segundo, implementamos essas ideias sobre o VGGT, um recente e poderoso reconstutor 3D. Embora o VGGT tenha sido treinado em cenas estáticas, mostramos que uma quantidade modesta de dados sintéticos é suficiente para adaptá-lo a um preditor V-DPM eficaz. Nossa abordagem atinge desempenho de última geração em reconstrução 3D e 4D para cenas dinâmicas. Em particular, ao contrário de extensões dinâmicas recentes do VGGT, como o P3, os DPMs recuperam não apenas a profundidade dinâmica, mas também o movimento 3D completo de cada ponto na cena.

English

Powerful 3D representations such as DUSt3R invariant point maps, which encode 3D shape and camera parameters, have significantly advanced feed forward 3D reconstruction. While point maps assume static scenes, Dynamic Point Maps (DPMs) extend this concept to dynamic 3D content by additionally representing scene motion. However, existing DPMs are limited to image pairs and, like DUSt3R, require post processing via optimization when more than two views are involved. We argue that DPMs are more useful when applied to videos and introduce V-DPM to demonstrate this. First, we show how to formulate DPMs for video input in a way that maximizes representational power, facilitates neural prediction, and enables reuse of pretrained models. Second, we implement these ideas on top of VGGT, a recent and powerful 3D reconstructor. Although VGGT was trained on static scenes, we show that a modest amount of synthetic data is sufficient to adapt it into an effective V-DPM predictor. Our approach achieves state of the art performance in 3D and 4D reconstruction for dynamic scenes. In particular, unlike recent dynamic extensions of VGGT such as P3, DPMs recover not only dynamic depth but also the full 3D motion of every point in the scene.

V-DPM: Reconstrução 4D de Vídeo com Mapas de Pontos Dinâmicos

V-DPM: 4D Video Reconstruction with Dynamic Point Maps

Resumo

Support