360^circ Reconstructie vanuit een enkele afbeelding met behulp van Space Carved Outpainting
360^circ Reconstruction From a Single Image Using Space Carved Outpainting
September 19, 2023
Auteurs: Nuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho
cs.AI
Samenvatting
We introduceren POP3D, een nieuw framework dat een volledig 360°-zicht 3D-model creëert vanuit een enkele afbeelding. POP3D lost twee prominente problemen op die de reconstructie vanuit één beeld beperken. Ten eerste biedt POP3D aanzienlijke generaliseerbaarheid naar willekeurige categorieën, een eigenschap waar eerdere methoden moeite mee hebben. Ten tweede verbetert POP3D de reconstructiefideliteit en natuurlijkheid verder, een cruciaal aspect waar gelijktijdige werken tekortschieten. Onze aanpak combineert de sterke punten van vier primaire componenten: (1) een monoculaire diepte- en normaalvoorspeller die cruciale geometrische aanwijzingen voorspelt, (2) een space carving-methode die in staat is om de mogelijk onzichtbare delen van het doelobject af te bakenen, (3) een generatief model dat vooraf is getraind op een grootschalige beelddataset en in staat is om onzichtbare regio's van het doel te voltooien, en (4) een neurale impliciete oppervlakreconstructiemethode die is afgestemd op het reconstrueren van objecten met behulp van RGB-beelden samen met monoculaire geometrische aanwijzingen. De combinatie van deze componenten stelt POP3D in staat om moeiteloos te generaliseren over diverse in-the-wild afbeeldingen en state-of-the-art reconstructies te genereren, waardoor het vergelijkbare werken met een aanzienlijke marge overtreft. Projectpagina: http://cg.postech.ac.kr/research/POP3D
English
We introduce POP3D, a novel framework that creates a full 360^circ-view 3D
model from a single image. POP3D resolves two prominent issues that limit the
single-view reconstruction. Firstly, POP3D offers substantial generalizability
to arbitrary categories, a trait that previous methods struggle to achieve.
Secondly, POP3D further improves reconstruction fidelity and naturalness, a
crucial aspect that concurrent works fall short of. Our approach marries the
strengths of four primary components: (1) a monocular depth and normal
predictor that serves to predict crucial geometric cues, (2) a space carving
method capable of demarcating the potentially unseen portions of the target
object, (3) a generative model pre-trained on a large-scale image dataset that
can complete unseen regions of the target, and (4) a neural implicit surface
reconstruction method tailored in reconstructing objects using RGB images along
with monocular geometric cues. The combination of these components enables
POP3D to readily generalize across various in-the-wild images and generate
state-of-the-art reconstructions, outperforming similar works by a significant
margin. Project page: http://cg.postech.ac.kr/research/POP3D