ChatPaper.aiChatPaper

MVD^2: Reconstrução 3D Multivista Eficiente para Difusão Multivista

MVD^2: Efficient Multiview 3D Reconstruction for Multiview Diffusion

February 22, 2024
Autores: Xin-Yang Zheng, Hao Pan, Yu-Xiao Guo, Xin Tong, Yang Liu
cs.AI

Resumo

Como uma técnica promissora de geração 3D, a difusão multivista (MVD) tem recebido muita atenção devido às suas vantagens em termos de generalização, qualidade e eficiência. Ao ajustar modelos de difusão de imagem pré-treinados com dados 3D, os métodos MVD primeiro geram múltiplas visões de um objeto 3D com base em uma imagem ou prompt de texto e, em seguida, reconstroem formas 3D com reconstrução 3D multivista. No entanto, as visões esparsas e os detalhes inconsistentes nas imagens geradas tornam a reconstrução 3D desafiadora. Apresentamos o MVD^2, um método eficiente de reconstrução 3D para imagens de difusão multivista (MVD). O MVD^2 agrega características de imagem em um volume de características 3D por projeção e convolução e, em seguida, decodifica as características volumétricas em uma malha 3D. Treinamos o MVD^2 com coleções de formas 3D e imagens MVD geradas a partir de visões renderizadas de formas 3D. Para abordar a discrepância entre as imagens multivista geradas e as visões de referência das formas 3D, projetamos um esquema de treinamento dependente de visão simples, porém eficiente. O MVD^2 melhora a qualidade da geração 3D do MVD e é rápido e robusto para vários métodos MVD. Após o treinamento, ele pode decodificar eficientemente malhas 3D a partir de imagens multivista em menos de um segundo. Treinamos o MVD^2 com o Zero-123++ e o conjunto de dados 3D ObjectVerse-LVIS e demonstramos seu desempenho superior na geração de modelos 3D a partir de imagens multivista geradas por diferentes métodos MVD, utilizando tanto imagens sintéticas quanto reais como prompts.
English
As a promising 3D generation technique, multiview diffusion (MVD) has received a lot of attention due to its advantages in terms of generalizability, quality, and efficiency. By finetuning pretrained large image diffusion models with 3D data, the MVD methods first generate multiple views of a 3D object based on an image or text prompt and then reconstruct 3D shapes with multiview 3D reconstruction. However, the sparse views and inconsistent details in the generated images make 3D reconstruction challenging. We present MVD^2, an efficient 3D reconstruction method for multiview diffusion (MVD) images. MVD^2 aggregates image features into a 3D feature volume by projection and convolution and then decodes volumetric features into a 3D mesh. We train MVD^2 with 3D shape collections and MVD images prompted by rendered views of 3D shapes. To address the discrepancy between the generated multiview images and ground-truth views of the 3D shapes, we design a simple-yet-efficient view-dependent training scheme. MVD^2 improves the 3D generation quality of MVD and is fast and robust to various MVD methods. After training, it can efficiently decode 3D meshes from multiview images within one second. We train MVD^2 with Zero-123++ and ObjectVerse-LVIS 3D dataset and demonstrate its superior performance in generating 3D models from multiview images generated by different MVD methods, using both synthetic and real images as prompts.
PDF71December 15, 2024