Geo4D : Exploitation des générateurs vidéo pour la reconstruction géométrique de scènes 4D
Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction
April 10, 2025
Auteurs: Zeren Jiang, Chuanxia Zheng, Iro Laina, Diane Larlus, Andrea Vedaldi
cs.AI
Résumé
Nous présentons Geo4D, une méthode permettant de réutiliser des modèles de diffusion vidéo pour la reconstruction 3D monoculaire de scènes dynamiques. En exploitant le fort a priori dynamique capturé par ces modèles vidéo, Geo4D peut être entraîné en utilisant uniquement des données synthétiques tout en généralisant efficacement à des données réelles de manière zero-shot. Geo4D prédit plusieurs modalités géométriques complémentaires, à savoir des cartes de points, de profondeur et de rayons. Il utilise un nouvel algorithme d'alignement multi-modal pour aligner et fusionner ces modalités, ainsi que plusieurs fenêtres glissantes, au moment de l'inférence, obtenant ainsi une reconstruction 4D robuste et précise de vidéos longues. Des expériences approfondies sur plusieurs benchmarks montrent que Geo4D surpasse significativement les méthodes d'estimation de profondeur vidéo de pointe, y compris des méthodes récentes comme MonST3R, qui sont également conçues pour gérer des scènes dynamiques.
English
We introduce Geo4D, a method to repurpose video diffusion models for
monocular 3D reconstruction of dynamic scenes. By leveraging the strong dynamic
prior captured by such video models, Geo4D can be trained using only synthetic
data while generalizing well to real data in a zero-shot manner. Geo4D predicts
several complementary geometric modalities, namely point, depth, and ray maps.
It uses a new multi-modal alignment algorithm to align and fuse these
modalities, as well as multiple sliding windows, at inference time, thus
obtaining robust and accurate 4D reconstruction of long videos. Extensive
experiments across multiple benchmarks show that Geo4D significantly surpasses
state-of-the-art video depth estimation methods, including recent methods such
as MonST3R, which are also designed to handle dynamic scenes.Summary
AI-Generated Summary