SpaRP: Reconstrucción rápida de objetos en 3D y estimación de pose a partir de vistas dispersas

Resumen

La generación abierta de mundos en 3D ha atraído recientemente considerable atención. Si bien muchos métodos de imagen única a 3D han producido resultados visualmente atractivos, a menudo carecen de suficiente controlabilidad y tienden a generar regiones alucinadas que pueden no coincidir con las expectativas de los usuarios. En este documento, exploramos un escenario importante en el que la entrada consiste en una o unas pocas imágenes 2D no alineadas de un solo objeto, con poca o ninguna superposición. Proponemos un método novedoso, SpaRP, para reconstruir una malla texturizada en 3D y estimar las poses relativas de la cámara para estas imágenes de vista escasa. SpaRP destila conocimientos de modelos de difusión 2D y los ajusta finamente para deducir implícitamente las relaciones espaciales en 3D entre las vistas escasas. El modelo de difusión se entrena para predecir conjuntamente representaciones sustitutas para las poses de la cámara y las imágenes de múltiples vistas del objeto bajo poses conocidas, integrando toda la información de las vistas escasas de entrada. Estas predicciones se utilizan luego para lograr la reconstrucción en 3D y la estimación de poses, y el modelo 3D reconstruido puede usarse para refinar aún más las poses de cámara de las vistas de entrada. A través de experimentos extensos en tres conjuntos de datos, demostramos que nuestro método no solo supera significativamente a los métodos de referencia en cuanto a calidad de reconstrucción en 3D y precisión de predicción de poses, sino que también muestra una fuerte eficiencia. Solo requiere aproximadamente 20 segundos para producir una malla texturizada y poses de cámara para las vistas de entrada. Página del proyecto: https://chaoxu.xyz/sparp.

English

Open-world 3D generation has recently attracted considerable attention. While many single-image-to-3D methods have yielded visually appealing outcomes, they often lack sufficient controllability and tend to produce hallucinated regions that may not align with users' expectations. In this paper, we explore an important scenario in which the input consists of one or a few unposed 2D images of a single object, with little or no overlap. We propose a novel method, SpaRP, to reconstruct a 3D textured mesh and estimate the relative camera poses for these sparse-view images. SpaRP distills knowledge from 2D diffusion models and finetunes them to implicitly deduce the 3D spatial relationships between the sparse views. The diffusion model is trained to jointly predict surrogate representations for camera poses and multi-view images of the object under known poses, integrating all information from the input sparse views. These predictions are then leveraged to accomplish 3D reconstruction and pose estimation, and the reconstructed 3D model can be used to further refine the camera poses of input views. Through extensive experiments on three datasets, we demonstrate that our method not only significantly outperforms baseline methods in terms of 3D reconstruction quality and pose prediction accuracy but also exhibits strong efficiency. It requires only about 20 seconds to produce a textured mesh and camera poses for the input views. Project page: https://chaoxu.xyz/sparp.

SpaRP: Reconstrucción rápida de objetos en 3D y estimación de pose a partir de vistas dispersas

SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views

Resumen

Support