Geo4D: Aprovechando los generadores de video para la reconstrucción geométrica de escenas 4D
Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction
April 10, 2025
Autores: Zeren Jiang, Chuanxia Zheng, Iro Laina, Diane Larlus, Andrea Vedaldi
cs.AI
Resumen
Presentamos Geo4D, un método para reutilizar modelos de difusión de video en la reconstrucción monocular 3D de escenas dinámicas. Al aprovechar el fuerte conocimiento previo dinámico capturado por estos modelos de video, Geo4D puede entrenarse utilizando únicamente datos sintéticos mientras generaliza eficazmente a datos reales de manera zero-shot. Geo4D predice varias modalidades geométricas complementarias, concretamente mapas de puntos, profundidad y rayos. Utiliza un nuevo algoritmo de alineación multimodal para alinear y fusionar estas modalidades, así como múltiples ventanas deslizantes, durante la inferencia, obteniendo así una reconstrucción 4D robusta y precisa de videos largos. Experimentos exhaustivos en múltiples benchmarks muestran que Geo4D supera significativamente a los métodos más avanzados en estimación de profundidad en video, incluyendo métodos recientes como MonST3R, que también están diseñados para manejar escenas dinámicas.
English
We introduce Geo4D, a method to repurpose video diffusion models for
monocular 3D reconstruction of dynamic scenes. By leveraging the strong dynamic
prior captured by such video models, Geo4D can be trained using only synthetic
data while generalizing well to real data in a zero-shot manner. Geo4D predicts
several complementary geometric modalities, namely point, depth, and ray maps.
It uses a new multi-modal alignment algorithm to align and fuse these
modalities, as well as multiple sliding windows, at inference time, thus
obtaining robust and accurate 4D reconstruction of long videos. Extensive
experiments across multiple benchmarks show that Geo4D significantly surpasses
state-of-the-art video depth estimation methods, including recent methods such
as MonST3R, which are also designed to handle dynamic scenes.Summary
AI-Generated Summary