Geo4D: Aproveitando Geradores de Vídeo para Reconstrução Geométrica de Cenas 4D
Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction
April 10, 2025
Autores: Zeren Jiang, Chuanxia Zheng, Iro Laina, Diane Larlus, Andrea Vedaldi
cs.AI
Resumo
Apresentamos o Geo4D, um método para reutilizar modelos de difusão de vídeo na reconstrução monocular 3D de cenas dinâmicas. Ao aproveitar o forte conhecimento dinâmico capturado por esses modelos de vídeo, o Geo4D pode ser treinado usando apenas dados sintéticos, enquanto generaliza bem para dados reais de maneira zero-shot. O Geo4D prevê várias modalidades geométricas complementares, nomeadamente mapas de pontos, profundidade e raios. Ele utiliza um novo algoritmo de alinhamento multimodal para alinhar e fundir essas modalidades, bem como múltiplas janelas deslizantes, durante a inferência, obtendo assim uma reconstrução 4D robusta e precisa de vídeos longos. Experimentos extensivos em vários benchmarks mostram que o Geo4D supera significativamente os métodos state-of-the-art de estimativa de profundidade em vídeo, incluindo métodos recentes como o MonST3R, que também são projetados para lidar com cenas dinâmicas.
English
We introduce Geo4D, a method to repurpose video diffusion models for
monocular 3D reconstruction of dynamic scenes. By leveraging the strong dynamic
prior captured by such video models, Geo4D can be trained using only synthetic
data while generalizing well to real data in a zero-shot manner. Geo4D predicts
several complementary geometric modalities, namely point, depth, and ray maps.
It uses a new multi-modal alignment algorithm to align and fuse these
modalities, as well as multiple sliding windows, at inference time, thus
obtaining robust and accurate 4D reconstruction of long videos. Extensive
experiments across multiple benchmarks show that Geo4D significantly surpasses
state-of-the-art video depth estimation methods, including recent methods such
as MonST3R, which are also designed to handle dynamic scenes.Summary
AI-Generated Summary