Reconstrução 360^circ a partir de uma única imagem usando Space Carved Outpainting
360^circ Reconstruction From a Single Image Using Space Carved Outpainting
September 19, 2023
Autores: Nuri Ryu, Minsu Gong, Geonung Kim, Joo-Haeng Lee, Sunghyun Cho
cs.AI
Resumo
Apresentamos o POP3D, uma nova estrutura que cria um modelo 3D de visão completa de 360° a partir de uma única imagem. O POP3D resolve dois problemas proeminentes que limitam a reconstrução de visão única. Em primeiro lugar, o POP3D oferece uma generalização substancial para categorias arbitrárias, uma característica que métodos anteriores têm dificuldade em alcançar. Em segundo lugar, o POP3D melhora ainda mais a fidelidade e a naturalidade da reconstrução, um aspecto crucial em que trabalhos contemporâneos ficam aquém. Nossa abordagem combina as forças de quatro componentes principais: (1) um preditor de profundidade e normal monoculares que serve para prever pistas geométricas cruciais, (2) um método de escultura espacial capaz de demarcar as porções potencialmente não vistas do objeto alvo, (3) um modelo generativo pré-treinado em um grande conjunto de dados de imagens que pode completar regiões não vistas do alvo, e (4) um método de reconstrução de superfície implícita neural adaptado para reconstruir objetos usando imagens RGB juntamente com pistas geométricas monoculares. A combinação desses componentes permite que o POP3D generalize prontamente em várias imagens do mundo real e gere reconstruções de última geração, superando trabalhos semelhantes por uma margem significativa. Página do projeto: http://cg.postech.ac.kr/research/POP3D
English
We introduce POP3D, a novel framework that creates a full 360^circ-view 3D
model from a single image. POP3D resolves two prominent issues that limit the
single-view reconstruction. Firstly, POP3D offers substantial generalizability
to arbitrary categories, a trait that previous methods struggle to achieve.
Secondly, POP3D further improves reconstruction fidelity and naturalness, a
crucial aspect that concurrent works fall short of. Our approach marries the
strengths of four primary components: (1) a monocular depth and normal
predictor that serves to predict crucial geometric cues, (2) a space carving
method capable of demarcating the potentially unseen portions of the target
object, (3) a generative model pre-trained on a large-scale image dataset that
can complete unseen regions of the target, and (4) a neural implicit surface
reconstruction method tailored in reconstructing objects using RGB images along
with monocular geometric cues. The combination of these components enables
POP3D to readily generalize across various in-the-wild images and generate
state-of-the-art reconstructions, outperforming similar works by a significant
margin. Project page: http://cg.postech.ac.kr/research/POP3D