Reconstruction 360^circ à partir d'une seule image utilisant la sculpture spatiale et l'extrapolation
360^circ Reconstruction From a Single Image Using Space Carved Outpainting
September 19, 2023
Auteurs: Nuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho
cs.AI
Résumé
Nous présentons POP3D, un nouveau cadre de travail permettant de créer un modèle 3D à vue complète de 360° à partir d'une seule image. POP3D résout deux problèmes majeurs qui limitent la reconstruction à vue unique. Premièrement, POP3D offre une généralisation substantielle à des catégories arbitraires, une caractéristique que les méthodes précédentes peinent à atteindre. Deuxièmement, POP3D améliore encore la fidélité et le naturel de la reconstruction, un aspect crucial où les travaux concurrents échouent. Notre approche combine les forces de quatre composants principaux : (1) un prédicteur de profondeur et de normales monoculaires servant à prédire des indices géométriques cruciaux, (2) une méthode de découpage spatial capable de délimiter les parties potentiellement invisibles de l'objet cible, (3) un modèle génératif pré-entraîné sur un large ensemble de données d'images pouvant compléter les régions invisibles de la cible, et (4) une méthode de reconstruction de surface implicite neuronale adaptée à la reconstruction d'objets à l'aide d'images RGB ainsi que d'indices géométriques monoculaires. La combinaison de ces composants permet à POP3D de se généraliser facilement à diverses images en conditions réelles et de générer des reconstructions de pointe, surpassant de manière significative les travaux similaires. Page du projet : http://cg.postech.ac.kr/research/POP3D
English
We introduce POP3D, a novel framework that creates a full 360^circ-view 3D
model from a single image. POP3D resolves two prominent issues that limit the
single-view reconstruction. Firstly, POP3D offers substantial generalizability
to arbitrary categories, a trait that previous methods struggle to achieve.
Secondly, POP3D further improves reconstruction fidelity and naturalness, a
crucial aspect that concurrent works fall short of. Our approach marries the
strengths of four primary components: (1) a monocular depth and normal
predictor that serves to predict crucial geometric cues, (2) a space carving
method capable of demarcating the potentially unseen portions of the target
object, (3) a generative model pre-trained on a large-scale image dataset that
can complete unseen regions of the target, and (4) a neural implicit surface
reconstruction method tailored in reconstructing objects using RGB images along
with monocular geometric cues. The combination of these components enables
POP3D to readily generalize across various in-the-wild images and generate
state-of-the-art reconstructions, outperforming similar works by a significant
margin. Project page: http://cg.postech.ac.kr/research/POP3D