SpaRP : Reconstruction rapide d'objets 3D et estimation de pose à partir de vues éparses
SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views
August 19, 2024
Auteurs: Chao Xu, Ang Li, Linghao Chen, Yulin Liu, Ruoxi Shi, Hao Su, Minghua Liu
cs.AI
Résumé
La génération 3D en monde ouvert a récemment suscité un intérêt considérable. Bien que de nombreuses méthodes de conversion d'une seule image en 3D aient produit des résultats visuellement attrayants, elles manquent souvent de contrôlabilité suffisante et ont tendance à générer des régions hallucinées qui peuvent ne pas correspondre aux attentes des utilisateurs. Dans cet article, nous explorons un scénario important où l'entrée consiste en une ou quelques images 2D non positionnées d'un seul objet, avec peu ou pas de chevauchement. Nous proposons une nouvelle méthode, SpaRP, pour reconstruire un maillage 3D texturé et estimer les poses relatives des caméras pour ces images à vue éparse. SpaRP distille les connaissances des modèles de diffusion 2D et les affine pour déduire implicitement les relations spatiales 3D entre les vues éparses. Le modèle de diffusion est entraîné à prédire conjointement des représentations substitutives pour les poses des caméras et les images multi-vues de l'objet sous des poses connues, intégrant toutes les informations des vues éparses en entrée. Ces prédictions sont ensuite utilisées pour accomplir la reconstruction 3D et l'estimation des poses, et le modèle 3D reconstruit peut être utilisé pour affiner davantage les poses des caméras des vues en entrée. À travers des expériences approfondies sur trois ensembles de données, nous démontrons que notre méthode surpasse significativement les méthodes de référence en termes de qualité de reconstruction 3D et de précision de prédiction des poses, tout en affichant une forte efficacité. Elle ne nécessite qu'environ 20 secondes pour produire un maillage texturé et les poses des caméras pour les vues en entrée. Page du projet : https://chaoxu.xyz/sparp.
English
Open-world 3D generation has recently attracted considerable attention. While
many single-image-to-3D methods have yielded visually appealing outcomes, they
often lack sufficient controllability and tend to produce hallucinated regions
that may not align with users' expectations. In this paper, we explore an
important scenario in which the input consists of one or a few unposed 2D
images of a single object, with little or no overlap. We propose a novel
method, SpaRP, to reconstruct a 3D textured mesh and estimate the relative
camera poses for these sparse-view images. SpaRP distills knowledge from 2D
diffusion models and finetunes them to implicitly deduce the 3D spatial
relationships between the sparse views. The diffusion model is trained to
jointly predict surrogate representations for camera poses and multi-view
images of the object under known poses, integrating all information from the
input sparse views. These predictions are then leveraged to accomplish 3D
reconstruction and pose estimation, and the reconstructed 3D model can be used
to further refine the camera poses of input views. Through extensive
experiments on three datasets, we demonstrate that our method not only
significantly outperforms baseline methods in terms of 3D reconstruction
quality and pose prediction accuracy but also exhibits strong efficiency. It
requires only about 20 seconds to produce a textured mesh and camera poses for
the input views. Project page: https://chaoxu.xyz/sparp.Summary
AI-Generated Summary