Reconstrucción 360^circ a partir de una sola imagen utilizando Space Carved Outpainting
360^circ Reconstruction From a Single Image Using Space Carved Outpainting
September 19, 2023
Autores: Nuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho
cs.AI
Resumen
Presentamos POP3D, un marco novedoso que crea un modelo 3D de vista completa de 360° a partir de una sola imagen. POP3D resuelve dos problemas destacados que limitan la reconstrucción de una sola vista. En primer lugar, POP3D ofrece una generalización sustancial a categorías arbitrarias, una característica que los métodos anteriores tienen dificultades para lograr. En segundo lugar, POP3D mejora aún más la fidelidad y naturalidad de la reconstrucción, un aspecto crucial en el que trabajos concurrentes se quedan cortos. Nuestro enfoque combina las fortalezas de cuatro componentes principales: (1) un predictor de profundidad y normales monoculares que sirve para predecir pistas geométricas cruciales, (2) un método de tallado espacial capaz de demarcar las porciones potencialmente no vistas del objeto objetivo, (3) un modelo generativo preentrenado en un gran conjunto de datos de imágenes que puede completar las regiones no vistas del objetivo, y (4) un método de reconstrucción de superficie implícita neuronal diseñado para reconstruir objetos utilizando imágenes RGB junto con pistas geométricas monoculares. La combinación de estos componentes permite que POP3D se generalice fácilmente en diversas imágenes del mundo real y genere reconstrucciones de vanguardia, superando significativamente a trabajos similares. Página del proyecto: http://cg.postech.ac.kr/research/POP3D
English
We introduce POP3D, a novel framework that creates a full 360^circ-view 3D
model from a single image. POP3D resolves two prominent issues that limit the
single-view reconstruction. Firstly, POP3D offers substantial generalizability
to arbitrary categories, a trait that previous methods struggle to achieve.
Secondly, POP3D further improves reconstruction fidelity and naturalness, a
crucial aspect that concurrent works fall short of. Our approach marries the
strengths of four primary components: (1) a monocular depth and normal
predictor that serves to predict crucial geometric cues, (2) a space carving
method capable of demarcating the potentially unseen portions of the target
object, (3) a generative model pre-trained on a large-scale image dataset that
can complete unseen regions of the target, and (4) a neural implicit surface
reconstruction method tailored in reconstructing objects using RGB images along
with monocular geometric cues. The combination of these components enables
POP3D to readily generalize across various in-the-wild images and generate
state-of-the-art reconstructions, outperforming similar works by a significant
margin. Project page: http://cg.postech.ac.kr/research/POP3D