SpaRP : Reconstruction rapide d'objets 3D et estimation de pose à partir de vues éparses

papers.abstract

La génération 3D en monde ouvert a récemment suscité un intérêt considérable. Bien que de nombreuses méthodes de conversion d'une seule image en 3D aient produit des résultats visuellement attrayants, elles manquent souvent de contrôlabilité suffisante et ont tendance à générer des régions hallucinées qui peuvent ne pas correspondre aux attentes des utilisateurs. Dans cet article, nous explorons un scénario important où l'entrée consiste en une ou quelques images 2D non positionnées d'un seul objet, avec peu ou pas de chevauchement. Nous proposons une nouvelle méthode, SpaRP, pour reconstruire un maillage 3D texturé et estimer les poses relatives des caméras pour ces images à vue éparse. SpaRP distille les connaissances des modèles de diffusion 2D et les affine pour déduire implicitement les relations spatiales 3D entre les vues éparses. Le modèle de diffusion est entraîné à prédire conjointement des représentations substitutives pour les poses des caméras et les images multi-vues de l'objet sous des poses connues, intégrant toutes les informations des vues éparses en entrée. Ces prédictions sont ensuite utilisées pour accomplir la reconstruction 3D et l'estimation des poses, et le modèle 3D reconstruit peut être utilisé pour affiner davantage les poses des caméras des vues en entrée. À travers des expériences approfondies sur trois ensembles de données, nous démontrons que notre méthode surpasse significativement les méthodes de référence en termes de qualité de reconstruction 3D et de précision de prédiction des poses, tout en affichant une forte efficacité. Elle ne nécessite qu'environ 20 secondes pour produire un maillage texturé et les poses des caméras pour les vues en entrée. Page du projet : https://chaoxu.xyz/sparp.

English

Open-world 3D generation has recently attracted considerable attention. While many single-image-to-3D methods have yielded visually appealing outcomes, they often lack sufficient controllability and tend to produce hallucinated regions that may not align with users' expectations. In this paper, we explore an important scenario in which the input consists of one or a few unposed 2D images of a single object, with little or no overlap. We propose a novel method, SpaRP, to reconstruct a 3D textured mesh and estimate the relative camera poses for these sparse-view images. SpaRP distills knowledge from 2D diffusion models and finetunes them to implicitly deduce the 3D spatial relationships between the sparse views. The diffusion model is trained to jointly predict surrogate representations for camera poses and multi-view images of the object under known poses, integrating all information from the input sparse views. These predictions are then leveraged to accomplish 3D reconstruction and pose estimation, and the reconstructed 3D model can be used to further refine the camera poses of input views. Through extensive experiments on three datasets, we demonstrate that our method not only significantly outperforms baseline methods in terms of 3D reconstruction quality and pose prediction accuracy but also exhibits strong efficiency. It requires only about 20 seconds to produce a textured mesh and camera poses for the input views. Project page: https://chaoxu.xyz/sparp.

SpaRP : Reconstruction rapide d'objets 3D et estimation de pose à partir de vues éparses

SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views

papers.abstract

Support