ChatPaper.aiChatPaper

Reconstrucción 360^circ a partir de una sola imagen utilizando Space Carved Outpainting

360^circ Reconstruction From a Single Image Using Space Carved Outpainting

September 19, 2023
Autores: Nuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho
cs.AI

Resumen

Presentamos POP3D, un marco novedoso que crea un modelo 3D de vista completa de 360° a partir de una sola imagen. POP3D resuelve dos problemas destacados que limitan la reconstrucción de una sola vista. En primer lugar, POP3D ofrece una generalización sustancial a categorías arbitrarias, una característica que los métodos anteriores tienen dificultades para lograr. En segundo lugar, POP3D mejora aún más la fidelidad y naturalidad de la reconstrucción, un aspecto crucial en el que trabajos concurrentes se quedan cortos. Nuestro enfoque combina las fortalezas de cuatro componentes principales: (1) un predictor de profundidad y normales monoculares que sirve para predecir pistas geométricas cruciales, (2) un método de tallado espacial capaz de demarcar las porciones potencialmente no vistas del objeto objetivo, (3) un modelo generativo preentrenado en un gran conjunto de datos de imágenes que puede completar las regiones no vistas del objetivo, y (4) un método de reconstrucción de superficie implícita neuronal diseñado para reconstruir objetos utilizando imágenes RGB junto con pistas geométricas monoculares. La combinación de estos componentes permite que POP3D se generalice fácilmente en diversas imágenes del mundo real y genere reconstrucciones de vanguardia, superando significativamente a trabajos similares. Página del proyecto: http://cg.postech.ac.kr/research/POP3D
English
We introduce POP3D, a novel framework that creates a full 360^circ-view 3D model from a single image. POP3D resolves two prominent issues that limit the single-view reconstruction. Firstly, POP3D offers substantial generalizability to arbitrary categories, a trait that previous methods struggle to achieve. Secondly, POP3D further improves reconstruction fidelity and naturalness, a crucial aspect that concurrent works fall short of. Our approach marries the strengths of four primary components: (1) a monocular depth and normal predictor that serves to predict crucial geometric cues, (2) a space carving method capable of demarcating the potentially unseen portions of the target object, (3) a generative model pre-trained on a large-scale image dataset that can complete unseen regions of the target, and (4) a neural implicit surface reconstruction method tailored in reconstructing objects using RGB images along with monocular geometric cues. The combination of these components enables POP3D to readily generalize across various in-the-wild images and generate state-of-the-art reconstructions, outperforming similar works by a significant margin. Project page: http://cg.postech.ac.kr/research/POP3D
PDF61December 15, 2024