ChatPaper.aiChatPaper

Reconstrução 360^circ a partir de uma única imagem usando Space Carved Outpainting

360^circ Reconstruction From a Single Image Using Space Carved Outpainting

September 19, 2023
Autores: Nuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho
cs.AI

Resumo

Apresentamos o POP3D, uma nova estrutura que cria um modelo 3D de visão completa de 360° a partir de uma única imagem. O POP3D resolve dois problemas proeminentes que limitam a reconstrução de visão única. Em primeiro lugar, o POP3D oferece uma generalização substancial para categorias arbitrárias, uma característica que métodos anteriores têm dificuldade em alcançar. Em segundo lugar, o POP3D melhora ainda mais a fidelidade e a naturalidade da reconstrução, um aspecto crucial em que trabalhos contemporâneos ficam aquém. Nossa abordagem combina as forças de quatro componentes principais: (1) um preditor de profundidade e normal monoculares que serve para prever pistas geométricas cruciais, (2) um método de escultura espacial capaz de demarcar as porções potencialmente não vistas do objeto alvo, (3) um modelo generativo pré-treinado em um grande conjunto de dados de imagens que pode completar regiões não vistas do alvo, e (4) um método de reconstrução de superfície implícita neural adaptado para reconstruir objetos usando imagens RGB juntamente com pistas geométricas monoculares. A combinação desses componentes permite que o POP3D generalize prontamente em várias imagens do mundo real e gere reconstruções de última geração, superando trabalhos semelhantes por uma margem significativa. Página do projeto: http://cg.postech.ac.kr/research/POP3D
English
We introduce POP3D, a novel framework that creates a full 360^circ-view 3D model from a single image. POP3D resolves two prominent issues that limit the single-view reconstruction. Firstly, POP3D offers substantial generalizability to arbitrary categories, a trait that previous methods struggle to achieve. Secondly, POP3D further improves reconstruction fidelity and naturalness, a crucial aspect that concurrent works fall short of. Our approach marries the strengths of four primary components: (1) a monocular depth and normal predictor that serves to predict crucial geometric cues, (2) a space carving method capable of demarcating the potentially unseen portions of the target object, (3) a generative model pre-trained on a large-scale image dataset that can complete unseen regions of the target, and (4) a neural implicit surface reconstruction method tailored in reconstructing objects using RGB images along with monocular geometric cues. The combination of these components enables POP3D to readily generalize across various in-the-wild images and generate state-of-the-art reconstructions, outperforming similar works by a significant margin. Project page: http://cg.postech.ac.kr/research/POP3D
PDF61February 8, 2026