Part123: Reconstrução 3D com Consciência de Partes a partir de uma Imagem de Visão Única

Resumo

Recentemente, o surgimento dos modelos de difusão abriu novas oportunidades para a reconstrução a partir de uma única visão. No entanto, todos os métodos existentes representam o objeto alvo como uma malha fechada desprovida de qualquer informação estrutural, negligenciando assim a estrutura baseada em partes, que é crucial para muitas aplicações subsequentes, da forma reconstruída. Além disso, as malhas geradas geralmente apresentam ruídos excessivos, superfícies irregulares e texturas desfocadas, tornando desafiador obter segmentações de partes satisfatórias usando técnicas de segmentação 3D. Neste artigo, apresentamos o Part123, uma nova estrutura para reconstrução 3D com consciência de partes a partir de uma imagem de visão única. Primeiro, utilizamos modelos de difusão para gerar imagens consistentes em múltiplas visões a partir de uma imagem dada e, em seguida, aproveitamos o Segment Anything Model (SAM), que demonstra uma poderosa capacidade de generalização em objetos arbitrários, para gerar máscaras de segmentação em múltiplas visões. Para incorporar efetivamente informações baseadas em partes 2D na reconstrução 3D e lidar com inconsistências, introduzimos o aprendizado contrastivo em uma estrutura de renderização neural para aprender um espaço de características com consciência de partes com base nas máscaras de segmentação multivisão. Um algoritmo baseado em clustering também foi desenvolvido para derivar automaticamente os resultados de segmentação de partes 3D a partir dos modelos reconstruídos. Experimentos mostram que nosso método pode gerar modelos 3D com partes segmentadas de alta qualidade em diversos objetos. Em comparação com os métodos de reconstrução não estruturados existentes, os modelos 3D com consciência de partes gerados pelo nosso método beneficiam algumas aplicações importantes, incluindo reconstrução com preservação de características, ajuste de primitivas e edição de formas 3D.

English

Recently, the emergence of diffusion models has opened up new opportunities for single-view reconstruction. However, all the existing methods represent the target object as a closed mesh devoid of any structural information, thus neglecting the part-based structure, which is crucial for many downstream applications, of the reconstructed shape. Moreover, the generated meshes usually suffer from large noises, unsmooth surfaces, and blurry textures, making it challenging to obtain satisfactory part segments using 3D segmentation techniques. In this paper, we present Part123, a novel framework for part-aware 3D reconstruction from a single-view image. We first use diffusion models to generate multiview-consistent images from a given image, and then leverage Segment Anything Model (SAM), which demonstrates powerful generalization ability on arbitrary objects, to generate multiview segmentation masks. To effectively incorporate 2D part-based information into 3D reconstruction and handle inconsistency, we introduce contrastive learning into a neural rendering framework to learn a part-aware feature space based on the multiview segmentation masks. A clustering-based algorithm is also developed to automatically derive 3D part segmentation results from the reconstructed models. Experiments show that our method can generate 3D models with high-quality segmented parts on various objects. Compared to existing unstructured reconstruction methods, the part-aware 3D models from our method benefit some important applications, including feature-preserving reconstruction, primitive fitting, and 3D shape editing.

Part123: Reconstrução 3D com Consciência de Partes a partir de uma Imagem de Visão Única

Part123: Part-aware 3D Reconstruction from a Single-view Image

Resumo

Support