ChatPaper.aiChatPaper

GeometryCrafter: Konsistente Geometrie-Schätzung für Open-World-Videos mit Diffusions-Priors

GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

April 1, 2025
Autoren: Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan
cs.AI

Zusammenfassung

Trotz bemerkenswerter Fortschritte in der Video-Tiefenschätzung weisen bestehende Methoden inhärente Einschränkungen bei der Erreichung geometrischer Genauigkeit durch affin-invariante Vorhersagen auf, was ihre Anwendbarkeit in der Rekonstruktion und anderen metrisch fundierten nachgelagerten Aufgaben begrenzt. Wir stellen GeometryCrafter vor, ein neuartiges Framework, das hochpräzise Punktkarten-Sequenzen mit zeitlicher Kohärenz aus Open-World-Videos wiederherstellt und damit präzise 3D/4D-Rekonstruktion, Kameraparameterschätzung und andere tiefenbasierte Anwendungen ermöglicht. Im Kern unseres Ansatzes liegt ein Punktkarten-Variational Autoencoder (VAE), der einen latenten Raum lernt, der unabhängig von den latenten Verteilungen der Videos ist, um eine effektive Kodierung und Dekodierung von Punktkarten zu ermöglichen. Unter Nutzung des VAE trainieren wir ein Video-Diffusionsmodell, um die Verteilung von Punktkarten-Sequenzen, bedingt durch die Eingabevideos, zu modellieren. Umfangreiche Auswertungen auf diversen Datensätzen zeigen, dass GeometryCrafter state-of-the-art 3D-Genauigkeit, zeitliche Konsistenz und Generalisierungsfähigkeit erreicht.
English
Despite remarkable advancements in video depth estimation, existing methods exhibit inherent limitations in achieving geometric fidelity through the affine-invariant predictions, limiting their applicability in reconstruction and other metrically grounded downstream tasks. We propose GeometryCrafter, a novel framework that recovers high-fidelity point map sequences with temporal coherence from open-world videos, enabling accurate 3D/4D reconstruction, camera parameter estimation, and other depth-based applications. At the core of our approach lies a point map Variational Autoencoder (VAE) that learns a latent space agnostic to video latent distributions for effective point map encoding and decoding. Leveraging the VAE, we train a video diffusion model to model the distribution of point map sequences conditioned on the input videos. Extensive evaluations on diverse datasets demonstrate that GeometryCrafter achieves state-of-the-art 3D accuracy, temporal consistency, and generalization capability.

Summary

AI-Generated Summary

PDF292April 2, 2025