SpaRP: Reconstrucción rápida de objetos en 3D y estimación de pose a partir de vistas dispersas
SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views
August 19, 2024
Autores: Chao Xu, Ang Li, Linghao Chen, Yulin Liu, Ruoxi Shi, Hao Su, Minghua Liu
cs.AI
Resumen
La generación abierta de mundos en 3D ha atraído recientemente considerable atención. Si bien muchos métodos de imagen única a 3D han producido resultados visualmente atractivos, a menudo carecen de suficiente controlabilidad y tienden a generar regiones alucinadas que pueden no coincidir con las expectativas de los usuarios. En este documento, exploramos un escenario importante en el que la entrada consiste en una o unas pocas imágenes 2D no alineadas de un solo objeto, con poca o ninguna superposición. Proponemos un método novedoso, SpaRP, para reconstruir una malla texturizada en 3D y estimar las poses relativas de la cámara para estas imágenes de vista escasa. SpaRP destila conocimientos de modelos de difusión 2D y los ajusta finamente para deducir implícitamente las relaciones espaciales en 3D entre las vistas escasas. El modelo de difusión se entrena para predecir conjuntamente representaciones sustitutas para las poses de la cámara y las imágenes de múltiples vistas del objeto bajo poses conocidas, integrando toda la información de las vistas escasas de entrada. Estas predicciones se utilizan luego para lograr la reconstrucción en 3D y la estimación de poses, y el modelo 3D reconstruido puede usarse para refinar aún más las poses de cámara de las vistas de entrada. A través de experimentos extensos en tres conjuntos de datos, demostramos que nuestro método no solo supera significativamente a los métodos de referencia en cuanto a calidad de reconstrucción en 3D y precisión de predicción de poses, sino que también muestra una fuerte eficiencia. Solo requiere aproximadamente 20 segundos para producir una malla texturizada y poses de cámara para las vistas de entrada. Página del proyecto: https://chaoxu.xyz/sparp.
English
Open-world 3D generation has recently attracted considerable attention. While
many single-image-to-3D methods have yielded visually appealing outcomes, they
often lack sufficient controllability and tend to produce hallucinated regions
that may not align with users' expectations. In this paper, we explore an
important scenario in which the input consists of one or a few unposed 2D
images of a single object, with little or no overlap. We propose a novel
method, SpaRP, to reconstruct a 3D textured mesh and estimate the relative
camera poses for these sparse-view images. SpaRP distills knowledge from 2D
diffusion models and finetunes them to implicitly deduce the 3D spatial
relationships between the sparse views. The diffusion model is trained to
jointly predict surrogate representations for camera poses and multi-view
images of the object under known poses, integrating all information from the
input sparse views. These predictions are then leveraged to accomplish 3D
reconstruction and pose estimation, and the reconstructed 3D model can be used
to further refine the camera poses of input views. Through extensive
experiments on three datasets, we demonstrate that our method not only
significantly outperforms baseline methods in terms of 3D reconstruction
quality and pose prediction accuracy but also exhibits strong efficiency. It
requires only about 20 seconds to produce a textured mesh and camera poses for
the input views. Project page: https://chaoxu.xyz/sparp.Summary
AI-Generated Summary