SpaRP: Reconstrução Rápida de Objetos 3D e Estimação de Pose a partir de Vistas Esparsas
SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views
August 19, 2024
Autores: Chao Xu, Ang Li, Linghao Chen, Yulin Liu, Ruoxi Shi, Hao Su, Minghua Liu
cs.AI
Resumo
A geração aberta de mundos 3D tem atraído considerável atenção recentemente. Embora muitos métodos de imagem única para 3D tenham produzido resultados visualmente atraentes, frequentemente carecem de controlabilidade suficiente e tendem a gerar regiões alucinadas que podem não estar alinhadas com as expectativas dos usuários. Neste artigo, exploramos um cenário importante no qual a entrada consiste em uma ou algumas imagens 2D despojadas de um único objeto, com pouca ou nenhuma sobreposição. Propomos um método inovador, SpaRP, para reconstruir uma malha 3D texturizada e estimar as poses relativas da câmera para essas imagens de visão esparsa. O SpaRP destila conhecimento de modelos de difusão 2D e os ajusta para deduzir implicitamente as relações espaciais 3D entre as visões esparsas. O modelo de difusão é treinado para prever conjuntamente representações substitutas para poses de câmera e imagens de múltiplas visões do objeto sob poses conhecidas, integrando todas as informações das visões esparsas de entrada. Essas previsões são então aproveitadas para realizar a reconstrução 3D e a estimativa de pose, e o modelo 3D reconstruído pode ser usado para refinar ainda mais as poses de câmera das visões de entrada. Através de experimentos extensivos em três conjuntos de dados, demonstramos que nosso método não apenas supera significativamente os métodos de referência em termos de qualidade de reconstrução 3D e precisão de previsão de pose, mas também exibe forte eficiência. Ele requer apenas cerca de 20 segundos para produzir uma malha texturizada e poses de câmera para as visões de entrada. Página do projeto: https://chaoxu.xyz/sparp.
English
Open-world 3D generation has recently attracted considerable attention. While
many single-image-to-3D methods have yielded visually appealing outcomes, they
often lack sufficient controllability and tend to produce hallucinated regions
that may not align with users' expectations. In this paper, we explore an
important scenario in which the input consists of one or a few unposed 2D
images of a single object, with little or no overlap. We propose a novel
method, SpaRP, to reconstruct a 3D textured mesh and estimate the relative
camera poses for these sparse-view images. SpaRP distills knowledge from 2D
diffusion models and finetunes them to implicitly deduce the 3D spatial
relationships between the sparse views. The diffusion model is trained to
jointly predict surrogate representations for camera poses and multi-view
images of the object under known poses, integrating all information from the
input sparse views. These predictions are then leveraged to accomplish 3D
reconstruction and pose estimation, and the reconstructed 3D model can be used
to further refine the camera poses of input views. Through extensive
experiments on three datasets, we demonstrate that our method not only
significantly outperforms baseline methods in terms of 3D reconstruction
quality and pose prediction accuracy but also exhibits strong efficiency. It
requires only about 20 seconds to produce a textured mesh and camera poses for
the input views. Project page: https://chaoxu.xyz/sparp.Summary
AI-Generated Summary