SpaRP: Reconstrução Rápida de Objetos 3D e Estimação de Pose a partir de Vistas Esparsas

Resumo

A geração aberta de mundos 3D tem atraído considerável atenção recentemente. Embora muitos métodos de imagem única para 3D tenham produzido resultados visualmente atraentes, frequentemente carecem de controlabilidade suficiente e tendem a gerar regiões alucinadas que podem não estar alinhadas com as expectativas dos usuários. Neste artigo, exploramos um cenário importante no qual a entrada consiste em uma ou algumas imagens 2D despojadas de um único objeto, com pouca ou nenhuma sobreposição. Propomos um método inovador, SpaRP, para reconstruir uma malha 3D texturizada e estimar as poses relativas da câmera para essas imagens de visão esparsa. O SpaRP destila conhecimento de modelos de difusão 2D e os ajusta para deduzir implicitamente as relações espaciais 3D entre as visões esparsas. O modelo de difusão é treinado para prever conjuntamente representações substitutas para poses de câmera e imagens de múltiplas visões do objeto sob poses conhecidas, integrando todas as informações das visões esparsas de entrada. Essas previsões são então aproveitadas para realizar a reconstrução 3D e a estimativa de pose, e o modelo 3D reconstruído pode ser usado para refinar ainda mais as poses de câmera das visões de entrada. Através de experimentos extensivos em três conjuntos de dados, demonstramos que nosso método não apenas supera significativamente os métodos de referência em termos de qualidade de reconstrução 3D e precisão de previsão de pose, mas também exibe forte eficiência. Ele requer apenas cerca de 20 segundos para produzir uma malha texturizada e poses de câmera para as visões de entrada. Página do projeto: https://chaoxu.xyz/sparp.

English

Open-world 3D generation has recently attracted considerable attention. While many single-image-to-3D methods have yielded visually appealing outcomes, they often lack sufficient controllability and tend to produce hallucinated regions that may not align with users' expectations. In this paper, we explore an important scenario in which the input consists of one or a few unposed 2D images of a single object, with little or no overlap. We propose a novel method, SpaRP, to reconstruct a 3D textured mesh and estimate the relative camera poses for these sparse-view images. SpaRP distills knowledge from 2D diffusion models and finetunes them to implicitly deduce the 3D spatial relationships between the sparse views. The diffusion model is trained to jointly predict surrogate representations for camera poses and multi-view images of the object under known poses, integrating all information from the input sparse views. These predictions are then leveraged to accomplish 3D reconstruction and pose estimation, and the reconstructed 3D model can be used to further refine the camera poses of input views. Through extensive experiments on three datasets, we demonstrate that our method not only significantly outperforms baseline methods in terms of 3D reconstruction quality and pose prediction accuracy but also exhibits strong efficiency. It requires only about 20 seconds to produce a textured mesh and camera poses for the input views. Project page: https://chaoxu.xyz/sparp.

SpaRP: Reconstrução Rápida de Objetos 3D e Estimação de Pose a partir de Vistas Esparsas

SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views

Resumo

Summary

Support

Support