Geo4D: Nutzung von Video-Generatoren für die geometrische 4D-Szenenrekonstruktion
Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction
April 10, 2025
Autoren: Zeren Jiang, Chuanxia Zheng, Iro Laina, Diane Larlus, Andrea Vedaldi
cs.AI
Zusammenfassung
Wir stellen Geo4D vor, eine Methode zur Umwidmung von Video-Diffusionsmodellen für die monokulare 3D-Rekonstruktion dynamischer Szenen. Durch die Nutzung des starken dynamischen Priors, der von solchen Videomodellen erfasst wird, kann Geo4D ausschließlich mit synthetischen Daten trainiert werden und generalisiert dennoch in einem Zero-Shot-Ansatz gut auf reale Daten. Geo4D sagt mehrere komplementäre geometrische Modalitäten voraus, nämlich Punkt-, Tiefen- und Strahlenkarten. Es verwendet einen neuen multimodalen Ausrichtungsalgorithmus, um diese Modalitäten sowie mehrere gleitende Fenster während der Inferenz auszurichten und zu fusionieren, wodurch eine robuste und präzise 4D-Rekonstruktion langer Videos erreicht wird. Umfangreiche Experimente über mehrere Benchmarks hinweg zeigen, dass Geo4D die aktuellsten Methoden zur Video-Tiefenschätzung, einschließlich neuerer Methoden wie MonST3R, die ebenfalls für die Handhabung dynamischer Szenen entwickelt wurden, deutlich übertrifft.
English
We introduce Geo4D, a method to repurpose video diffusion models for
monocular 3D reconstruction of dynamic scenes. By leveraging the strong dynamic
prior captured by such video models, Geo4D can be trained using only synthetic
data while generalizing well to real data in a zero-shot manner. Geo4D predicts
several complementary geometric modalities, namely point, depth, and ray maps.
It uses a new multi-modal alignment algorithm to align and fuse these
modalities, as well as multiple sliding windows, at inference time, thus
obtaining robust and accurate 4D reconstruction of long videos. Extensive
experiments across multiple benchmarks show that Geo4D significantly surpasses
state-of-the-art video depth estimation methods, including recent methods such
as MonST3R, which are also designed to handle dynamic scenes.Summary
AI-Generated Summary