ChatPaper.aiChatPaper

GeometryCrafter: Consistente Geometrie-schatting voor Open-wereldvideo's met Diffusie-priors

GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

April 1, 2025
Auteurs: Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan
cs.AI

Samenvatting

Ondanks opmerkelijke vooruitgang in videodiepteschatting, vertonen bestaande methoden inherente beperkingen in het bereiken van geometrische nauwkeurigheid door middel van affiene-invariante voorspellingen, wat hun toepasbaarheid in reconstructie en andere metrisch onderbouwde downstreamtaken beperkt. Wij stellen GeometryCrafter voor, een nieuw raamwerk dat hoogwaardige puntenkaartsequenties met temporele samenhang herstelt uit open-wereldvideo's, waardoor nauwkeurige 3D/4D-reconstructie, cameraparameterschatting en andere dieptegebaseerde toepassingen mogelijk worden. De kern van onze aanpak bestaat uit een puntenkaart Variational Autoencoder (VAE) die een latente ruimte leert die onafhankelijk is van videolatente verdelingen voor effectieve puntenkaartcodering en -decodering. Door gebruik te maken van de VAE, trainen we een videodiffusiemodel om de verdeling van puntenkaartsequenties te modelleren, geconditioneerd op de invoervideo's. Uitgebreide evaluaties op diverse datasets tonen aan dat GeometryCrafter state-of-the-art 3D-nauwkeurigheid, temporele consistentie en generalisatievermogen bereikt.
English
Despite remarkable advancements in video depth estimation, existing methods exhibit inherent limitations in achieving geometric fidelity through the affine-invariant predictions, limiting their applicability in reconstruction and other metrically grounded downstream tasks. We propose GeometryCrafter, a novel framework that recovers high-fidelity point map sequences with temporal coherence from open-world videos, enabling accurate 3D/4D reconstruction, camera parameter estimation, and other depth-based applications. At the core of our approach lies a point map Variational Autoencoder (VAE) that learns a latent space agnostic to video latent distributions for effective point map encoding and decoding. Leveraging the VAE, we train a video diffusion model to model the distribution of point map sequences conditioned on the input videos. Extensive evaluations on diverse datasets demonstrate that GeometryCrafter achieves state-of-the-art 3D accuracy, temporal consistency, and generalization capability.

Summary

AI-Generated Summary

PDF292April 2, 2025