Geo4D: Sfruttare i generatori di video per la ricostruzione geometrica di scene 4D
Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction
April 10, 2025
Autori: Zeren Jiang, Chuanxia Zheng, Iro Laina, Diane Larlus, Andrea Vedaldi
cs.AI
Abstract
Presentiamo Geo4D, un metodo per riadattare modelli di diffusione video alla ricostruzione 3D monoculare di scene dinamiche. Sfruttando il forte prior dinamico catturato da tali modelli video, Geo4D può essere addestrato utilizzando esclusivamente dati sintetici, generalizzando efficacemente a dati reali in modalità zero-shot. Geo4D predice diverse modalità geometriche complementari, ovvero mappe di punti, di profondità e di raggi. Utilizza un nuovo algoritmo di allineamento multi-modale per allineare e fondere queste modalità, insieme a multiple finestre scorrevoli, al momento dell'inferenza, ottenendo così una ricostruzione 4D robusta e accurata di video lunghi. Esperimenti estesi su molteplici benchmark dimostrano che Geo4D supera significativamente i metodi all'avanguardia per la stima della profondità video, inclusi approcci recenti come MonST3R, anch'essi progettati per gestire scene dinamiche.
English
We introduce Geo4D, a method to repurpose video diffusion models for
monocular 3D reconstruction of dynamic scenes. By leveraging the strong dynamic
prior captured by such video models, Geo4D can be trained using only synthetic
data while generalizing well to real data in a zero-shot manner. Geo4D predicts
several complementary geometric modalities, namely point, depth, and ray maps.
It uses a new multi-modal alignment algorithm to align and fuse these
modalities, as well as multiple sliding windows, at inference time, thus
obtaining robust and accurate 4D reconstruction of long videos. Extensive
experiments across multiple benchmarks show that Geo4D significantly surpasses
state-of-the-art video depth estimation methods, including recent methods such
as MonST3R, which are also designed to handle dynamic scenes.Summary
AI-Generated Summary