Geo4D: Aprovechando los generadores de video para la reconstrucción geométrica de escenas 4D

Resumen

Presentamos Geo4D, un método para reutilizar modelos de difusión de video en la reconstrucción monocular 3D de escenas dinámicas. Al aprovechar el fuerte conocimiento previo dinámico capturado por estos modelos de video, Geo4D puede entrenarse utilizando únicamente datos sintéticos mientras generaliza eficazmente a datos reales de manera zero-shot. Geo4D predice varias modalidades geométricas complementarias, concretamente mapas de puntos, profundidad y rayos. Utiliza un nuevo algoritmo de alineación multimodal para alinear y fusionar estas modalidades, así como múltiples ventanas deslizantes, durante la inferencia, obteniendo así una reconstrucción 4D robusta y precisa de videos largos. Experimentos exhaustivos en múltiples benchmarks muestran que Geo4D supera significativamente a los métodos más avanzados en estimación de profundidad en video, incluyendo métodos recientes como MonST3R, que también están diseñados para manejar escenas dinámicas.

English

We introduce Geo4D, a method to repurpose video diffusion models for monocular 3D reconstruction of dynamic scenes. By leveraging the strong dynamic prior captured by such video models, Geo4D can be trained using only synthetic data while generalizing well to real data in a zero-shot manner. Geo4D predicts several complementary geometric modalities, namely point, depth, and ray maps. It uses a new multi-modal alignment algorithm to align and fuse these modalities, as well as multiple sliding windows, at inference time, thus obtaining robust and accurate 4D reconstruction of long videos. Extensive experiments across multiple benchmarks show that Geo4D significantly surpasses state-of-the-art video depth estimation methods, including recent methods such as MonST3R, which are also designed to handle dynamic scenes.