ChatPaper.aiChatPaper

GeometryCrafter: Estimación Consistente de Geometría para Videos de Mundo Abierto con Priores de Difusión

GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

April 1, 2025
Autores: Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan
cs.AI

Resumen

A pesar de los avances notables en la estimación de profundidad en videos, los métodos existentes presentan limitaciones inherentes para lograr fidelidad geométrica a través de predicciones afín-invariantes, lo que restringe su aplicabilidad en tareas de reconstrucción y otras tareas posteriores basadas en métricas. Proponemos GeometryCrafter, un marco novedoso que recupera secuencias de mapas de puntos de alta fidelidad con coherencia temporal a partir de videos del mundo abierto, permitiendo una reconstrucción 3D/4D precisa, la estimación de parámetros de la cámara y otras aplicaciones basadas en profundidad. En el núcleo de nuestro enfoque se encuentra un Variational Autoencoder (VAE) de mapas de puntos que aprende un espacio latente independiente de las distribuciones latentes de los videos para una codificación y decodificación efectiva de mapas de puntos. Aprovechando el VAE, entrenamos un modelo de difusión de videos para modelar la distribución de secuencias de mapas de puntos condicionadas a los videos de entrada. Evaluaciones extensas en diversos conjuntos de datos demuestran que GeometryCrafter alcanza una precisión 3D, consistencia temporal y capacidad de generalización de vanguardia.
English
Despite remarkable advancements in video depth estimation, existing methods exhibit inherent limitations in achieving geometric fidelity through the affine-invariant predictions, limiting their applicability in reconstruction and other metrically grounded downstream tasks. We propose GeometryCrafter, a novel framework that recovers high-fidelity point map sequences with temporal coherence from open-world videos, enabling accurate 3D/4D reconstruction, camera parameter estimation, and other depth-based applications. At the core of our approach lies a point map Variational Autoencoder (VAE) that learns a latent space agnostic to video latent distributions for effective point map encoding and decoding. Leveraging the VAE, we train a video diffusion model to model the distribution of point map sequences conditioned on the input videos. Extensive evaluations on diverse datasets demonstrate that GeometryCrafter achieves state-of-the-art 3D accuracy, temporal consistency, and generalization capability.

Summary

AI-Generated Summary

PDF292April 2, 2025