GeometryCrafter: Consistente Geometrie-schatting voor Open-wereldvideo's met Diffusie-priors
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors
April 1, 2025
Auteurs: Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan
cs.AI
Samenvatting
Ondanks opmerkelijke vooruitgang in videodiepteschatting, vertonen bestaande methoden inherente beperkingen in het bereiken van geometrische nauwkeurigheid door middel van affiene-invariante voorspellingen, wat hun toepasbaarheid in reconstructie en andere metrisch onderbouwde downstreamtaken beperkt. Wij stellen GeometryCrafter voor, een nieuw raamwerk dat hoogwaardige puntenkaartsequenties met temporele samenhang herstelt uit open-wereldvideo's, waardoor nauwkeurige 3D/4D-reconstructie, cameraparameterschatting en andere dieptegebaseerde toepassingen mogelijk worden. De kern van onze aanpak bestaat uit een puntenkaart Variational Autoencoder (VAE) die een latente ruimte leert die onafhankelijk is van videolatente verdelingen voor effectieve puntenkaartcodering en -decodering. Door gebruik te maken van de VAE, trainen we een videodiffusiemodel om de verdeling van puntenkaartsequenties te modelleren, geconditioneerd op de invoervideo's. Uitgebreide evaluaties op diverse datasets tonen aan dat GeometryCrafter state-of-the-art 3D-nauwkeurigheid, temporele consistentie en generalisatievermogen bereikt.
English
Despite remarkable advancements in video depth estimation, existing methods
exhibit inherent limitations in achieving geometric fidelity through the
affine-invariant predictions, limiting their applicability in reconstruction
and other metrically grounded downstream tasks. We propose GeometryCrafter, a
novel framework that recovers high-fidelity point map sequences with temporal
coherence from open-world videos, enabling accurate 3D/4D reconstruction,
camera parameter estimation, and other depth-based applications. At the core of
our approach lies a point map Variational Autoencoder (VAE) that learns a
latent space agnostic to video latent distributions for effective point map
encoding and decoding. Leveraging the VAE, we train a video diffusion model to
model the distribution of point map sequences conditioned on the input videos.
Extensive evaluations on diverse datasets demonstrate that GeometryCrafter
achieves state-of-the-art 3D accuracy, temporal consistency, and generalization
capability.Summary
AI-Generated Summary