GeometryCrafter : Estimation géométrique cohérente pour les vidéos en monde ouvert avec des a priori de diffusion
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors
April 1, 2025
Auteurs: Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan
cs.AI
Résumé
Malgré des avancées remarquables dans l'estimation de profondeur vidéo, les méthodes existantes présentent des limitations inhérentes pour atteindre une fidélité géométrique à travers des prédictions invariantes par affinité, limitant ainsi leur applicabilité dans la reconstruction et d'autres tâches en aval nécessitant une précision métrique. Nous proposons GeometryCrafter, un nouveau cadre de travail qui récupère des séquences de cartes de points haute fidélité avec une cohérence temporelle à partir de vidéos du monde réel, permettant une reconstruction 3D/4D précise, l'estimation des paramètres de la caméra et d'autres applications basées sur la profondeur. Au cœur de notre approche se trouve un Variational Autoencoder (VAE) de cartes de points qui apprend un espace latent indépendant des distributions latentes vidéo pour un encodage et un décodage efficaces des cartes de points. En exploitant ce VAE, nous entraînons un modèle de diffusion vidéo pour modéliser la distribution des séquences de cartes de points conditionnées par les vidéos d'entrée. Des évaluations approfondies sur divers ensembles de données démontrent que GeometryCrafter atteint une précision 3D de pointe, une cohérence temporelle et une capacité de généralisation exceptionnelles.
English
Despite remarkable advancements in video depth estimation, existing methods
exhibit inherent limitations in achieving geometric fidelity through the
affine-invariant predictions, limiting their applicability in reconstruction
and other metrically grounded downstream tasks. We propose GeometryCrafter, a
novel framework that recovers high-fidelity point map sequences with temporal
coherence from open-world videos, enabling accurate 3D/4D reconstruction,
camera parameter estimation, and other depth-based applications. At the core of
our approach lies a point map Variational Autoencoder (VAE) that learns a
latent space agnostic to video latent distributions for effective point map
encoding and decoding. Leveraging the VAE, we train a video diffusion model to
model the distribution of point map sequences conditioned on the input videos.
Extensive evaluations on diverse datasets demonstrate that GeometryCrafter
achieves state-of-the-art 3D accuracy, temporal consistency, and generalization
capability.Summary
AI-Generated Summary