ChatPaper.aiChatPaper

Ricostruzione a 360^circ da una singola immagine utilizzando Space Carved Outpainting

360^circ Reconstruction From a Single Image Using Space Carved Outpainting

September 19, 2023
Autori: Nuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho
cs.AI

Abstract

Presentiamo POP3D, un nuovo framework che crea un modello 3D a 360° a partire da una singola immagine. POP3D risolve due problemi significativi che limitano la ricostruzione da singola vista. In primo luogo, POP3D offre una sostanziale generalizzabilità a categorie arbitrarie, una caratteristica che i metodi precedenti faticano a raggiungere. In secondo luogo, POP3D migliora ulteriormente la fedeltà e la naturalezza della ricostruzione, un aspetto cruciale in cui i lavori contemporanei risultano carenti. Il nostro approccio combina i punti di forza di quattro componenti principali: (1) un predittore di profondità e normali monoculari che serve a prevedere indizi geometrici cruciali, (2) un metodo di space carving in grado di delimitare le porzioni potenzialmente non visibili dell'oggetto target, (3) un modello generativo pre-addestrato su un ampio dataset di immagini che può completare le regioni non visibili del target, e (4) un metodo di ricostruzione di superfici implicite neurali progettato per ricostruire oggetti utilizzando immagini RGB insieme a indizi geometrici monoculari. La combinazione di questi componenti consente a POP3D di generalizzare facilmente attraverso varie immagini in contesti reali e di generare ricostruzioni all'avanguardia, superando significativamente lavori simili. Pagina del progetto: http://cg.postech.ac.kr/research/POP3D
English
We introduce POP3D, a novel framework that creates a full 360^circ-view 3D model from a single image. POP3D resolves two prominent issues that limit the single-view reconstruction. Firstly, POP3D offers substantial generalizability to arbitrary categories, a trait that previous methods struggle to achieve. Secondly, POP3D further improves reconstruction fidelity and naturalness, a crucial aspect that concurrent works fall short of. Our approach marries the strengths of four primary components: (1) a monocular depth and normal predictor that serves to predict crucial geometric cues, (2) a space carving method capable of demarcating the potentially unseen portions of the target object, (3) a generative model pre-trained on a large-scale image dataset that can complete unseen regions of the target, and (4) a neural implicit surface reconstruction method tailored in reconstructing objects using RGB images along with monocular geometric cues. The combination of these components enables POP3D to readily generalize across various in-the-wild images and generate state-of-the-art reconstructions, outperforming similar works by a significant margin. Project page: http://cg.postech.ac.kr/research/POP3D
PDF61February 8, 2026