MVD^2: Reconstrucción 3D multivista eficiente para difusión multivista
MVD^2: Efficient Multiview 3D Reconstruction for Multiview Diffusion
February 22, 2024
Autores: Xin-Yang Zheng, Hao Pan, Yu-Xiao Guo, Xin Tong, Yang Liu
cs.AI
Resumen
Como una técnica prometedora de generación 3D, la difusión multivista (MVD, por sus siglas en inglés) ha recibido mucha atención debido a sus ventajas en términos de generalización, calidad y eficiencia. Al ajustar modelos de difusión de imágenes preentrenados con datos 3D, los métodos MVD primero generan múltiples vistas de un objeto 3D basándose en una imagen o un texto de entrada, y luego reconstruyen formas 3D mediante reconstrucción 3D multivista. Sin embargo, las vistas dispersas y los detalles inconsistentes en las imágenes generadas hacen que la reconstrucción 3D sea un desafío. Presentamos MVD^2, un método eficiente de reconstrucción 3D para imágenes de difusión multivista (MVD). MVD^2 agrega características de imagen en un volumen de características 3D mediante proyección y convolución, y luego decodifica las características volumétricas en una malla 3D. Entrenamos MVD^2 con colecciones de formas 3D e imágenes MVD generadas a partir de vistas renderizadas de formas 3D. Para abordar la discrepancia entre las imágenes multivista generadas y las vistas de referencia de las formas 3D, diseñamos un esquema de entrenamiento dependiente de la vista simple pero eficiente. MVD^2 mejora la calidad de la generación 3D de MVD y es rápido y robusto frente a diversos métodos MVD. Después del entrenamiento, puede decodificar eficientemente mallas 3D a partir de imágenes multivista en menos de un segundo. Entrenamos MVD^2 con Zero-123++ y el conjunto de datos 3D ObjectVerse-LVIS, y demostramos su rendimiento superior en la generación de modelos 3D a partir de imágenes multivista generadas por diferentes métodos MVD, utilizando tanto imágenes sintéticas como reales como entradas.
English
As a promising 3D generation technique, multiview diffusion (MVD) has
received a lot of attention due to its advantages in terms of generalizability,
quality, and efficiency. By finetuning pretrained large image diffusion models
with 3D data, the MVD methods first generate multiple views of a 3D object
based on an image or text prompt and then reconstruct 3D shapes with multiview
3D reconstruction. However, the sparse views and inconsistent details in the
generated images make 3D reconstruction challenging. We present MVD^2, an
efficient 3D reconstruction method for multiview diffusion (MVD) images.
MVD^2 aggregates image features into a 3D feature volume by projection and
convolution and then decodes volumetric features into a 3D mesh. We train
MVD^2 with 3D shape collections and MVD images prompted by rendered views of
3D shapes. To address the discrepancy between the generated multiview images
and ground-truth views of the 3D shapes, we design a simple-yet-efficient
view-dependent training scheme. MVD^2 improves the 3D generation quality of
MVD and is fast and robust to various MVD methods. After training, it can
efficiently decode 3D meshes from multiview images within one second. We train
MVD^2 with Zero-123++ and ObjectVerse-LVIS 3D dataset and demonstrate its
superior performance in generating 3D models from multiview images generated by
different MVD methods, using both synthetic and real images as prompts.