Part123: Reconstrução 3D com Consciência de Partes a partir de uma Imagem de Visão Única
Part123: Part-aware 3D Reconstruction from a Single-view Image
May 27, 2024
Autores: Anran Liu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Zhiyang Dou, Hao-Xiang Guo, Ping Luo, Wenping Wang
cs.AI
Resumo
Recentemente, o surgimento dos modelos de difusão abriu novas oportunidades para a reconstrução a partir de uma única visão. No entanto, todos os métodos existentes representam o objeto alvo como uma malha fechada desprovida de qualquer informação estrutural, negligenciando assim a estrutura baseada em partes, que é crucial para muitas aplicações subsequentes, da forma reconstruída. Além disso, as malhas geradas geralmente apresentam ruídos excessivos, superfícies irregulares e texturas desfocadas, tornando desafiador obter segmentações de partes satisfatórias usando técnicas de segmentação 3D. Neste artigo, apresentamos o Part123, uma nova estrutura para reconstrução 3D com consciência de partes a partir de uma imagem de visão única. Primeiro, utilizamos modelos de difusão para gerar imagens consistentes em múltiplas visões a partir de uma imagem dada e, em seguida, aproveitamos o Segment Anything Model (SAM), que demonstra uma poderosa capacidade de generalização em objetos arbitrários, para gerar máscaras de segmentação em múltiplas visões. Para incorporar efetivamente informações baseadas em partes 2D na reconstrução 3D e lidar com inconsistências, introduzimos o aprendizado contrastivo em uma estrutura de renderização neural para aprender um espaço de características com consciência de partes com base nas máscaras de segmentação multivisão. Um algoritmo baseado em clustering também foi desenvolvido para derivar automaticamente os resultados de segmentação de partes 3D a partir dos modelos reconstruídos. Experimentos mostram que nosso método pode gerar modelos 3D com partes segmentadas de alta qualidade em diversos objetos. Em comparação com os métodos de reconstrução não estruturados existentes, os modelos 3D com consciência de partes gerados pelo nosso método beneficiam algumas aplicações importantes, incluindo reconstrução com preservação de características, ajuste de primitivas e edição de formas 3D.
English
Recently, the emergence of diffusion models has opened up new opportunities
for single-view reconstruction. However, all the existing methods represent the
target object as a closed mesh devoid of any structural information, thus
neglecting the part-based structure, which is crucial for many downstream
applications, of the reconstructed shape. Moreover, the generated meshes
usually suffer from large noises, unsmooth surfaces, and blurry textures,
making it challenging to obtain satisfactory part segments using 3D
segmentation techniques. In this paper, we present Part123, a novel framework
for part-aware 3D reconstruction from a single-view image. We first use
diffusion models to generate multiview-consistent images from a given image,
and then leverage Segment Anything Model (SAM), which demonstrates powerful
generalization ability on arbitrary objects, to generate multiview segmentation
masks. To effectively incorporate 2D part-based information into 3D
reconstruction and handle inconsistency, we introduce contrastive learning into
a neural rendering framework to learn a part-aware feature space based on the
multiview segmentation masks. A clustering-based algorithm is also developed to
automatically derive 3D part segmentation results from the reconstructed
models. Experiments show that our method can generate 3D models with
high-quality segmented parts on various objects. Compared to existing
unstructured reconstruction methods, the part-aware 3D models from our method
benefit some important applications, including feature-preserving
reconstruction, primitive fitting, and 3D shape editing.