ChatPaper.aiChatPaper

GeometryCrafter: Estimativa Consistente de Geometria para Vídeos do Mundo Aberto com Priors de Difusão

GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

April 1, 2025
Autores: Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan
cs.AI

Resumo

Apesar dos avanços notáveis na estimativa de profundidade em vídeos, os métodos existentes apresentam limitações inerentes na obtenção de fidelidade geométrica por meio de previsões invariantes a afinidades, restringindo sua aplicabilidade em reconstrução e outras tarefas subsequentes baseadas em métricas. Propomos o GeometryCrafter, uma nova estrutura que recupera sequências de mapas de pontos de alta fidelidade com coerência temporal a partir de vídeos do mundo aberto, permitindo reconstrução 3D/4D precisa, estimativa de parâmetros da câmera e outras aplicações baseadas em profundidade. No cerne de nossa abordagem está um Variational Autoencoder (VAE) de mapas de pontos que aprende um espaço latente agnóstico às distribuições latentes de vídeo para codificação e decodificação eficiente de mapas de pontos. Aproveitando o VAE, treinamos um modelo de difusão de vídeo para modelar a distribuição de sequências de mapas de pontos condicionadas aos vídeos de entrada. Avaliações extensas em diversos conjuntos de dados demonstram que o GeometryCrafter alcança precisão 3D de ponta, consistência temporal e capacidade de generalização.
English
Despite remarkable advancements in video depth estimation, existing methods exhibit inherent limitations in achieving geometric fidelity through the affine-invariant predictions, limiting their applicability in reconstruction and other metrically grounded downstream tasks. We propose GeometryCrafter, a novel framework that recovers high-fidelity point map sequences with temporal coherence from open-world videos, enabling accurate 3D/4D reconstruction, camera parameter estimation, and other depth-based applications. At the core of our approach lies a point map Variational Autoencoder (VAE) that learns a latent space agnostic to video latent distributions for effective point map encoding and decoding. Leveraging the VAE, we train a video diffusion model to model the distribution of point map sequences conditioned on the input videos. Extensive evaluations on diverse datasets demonstrate that GeometryCrafter achieves state-of-the-art 3D accuracy, temporal consistency, and generalization capability.

Summary

AI-Generated Summary

PDF292April 2, 2025