Ricostruzione a 360^circ da una singola immagine utilizzando Space Carved Outpainting
360^circ Reconstruction From a Single Image Using Space Carved Outpainting
September 19, 2023
Autori: Nuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho
cs.AI
Abstract
Presentiamo POP3D, un nuovo framework che crea un modello 3D a 360° a partire da una singola immagine. POP3D risolve due problemi significativi che limitano la ricostruzione da singola vista. In primo luogo, POP3D offre una sostanziale generalizzabilità a categorie arbitrarie, una caratteristica che i metodi precedenti faticano a raggiungere. In secondo luogo, POP3D migliora ulteriormente la fedeltà e la naturalezza della ricostruzione, un aspetto cruciale in cui i lavori contemporanei risultano carenti. Il nostro approccio combina i punti di forza di quattro componenti principali: (1) un predittore di profondità e normali monoculari che serve a prevedere indizi geometrici cruciali, (2) un metodo di space carving in grado di delimitare le porzioni potenzialmente non visibili dell'oggetto target, (3) un modello generativo pre-addestrato su un ampio dataset di immagini che può completare le regioni non visibili del target, e (4) un metodo di ricostruzione di superfici implicite neurali progettato per ricostruire oggetti utilizzando immagini RGB insieme a indizi geometrici monoculari. La combinazione di questi componenti consente a POP3D di generalizzare facilmente attraverso varie immagini in contesti reali e di generare ricostruzioni all'avanguardia, superando significativamente lavori simili. Pagina del progetto: http://cg.postech.ac.kr/research/POP3D
English
We introduce POP3D, a novel framework that creates a full 360^circ-view 3D
model from a single image. POP3D resolves two prominent issues that limit the
single-view reconstruction. Firstly, POP3D offers substantial generalizability
to arbitrary categories, a trait that previous methods struggle to achieve.
Secondly, POP3D further improves reconstruction fidelity and naturalness, a
crucial aspect that concurrent works fall short of. Our approach marries the
strengths of four primary components: (1) a monocular depth and normal
predictor that serves to predict crucial geometric cues, (2) a space carving
method capable of demarcating the potentially unseen portions of the target
object, (3) a generative model pre-trained on a large-scale image dataset that
can complete unseen regions of the target, and (4) a neural implicit surface
reconstruction method tailored in reconstructing objects using RGB images along
with monocular geometric cues. The combination of these components enables
POP3D to readily generalize across various in-the-wild images and generate
state-of-the-art reconstructions, outperforming similar works by a significant
margin. Project page: http://cg.postech.ac.kr/research/POP3D