MVD^2: Reconstrucción 3D multivista eficiente para difusión multivista

Resumen

Como una técnica prometedora de generación 3D, la difusión multivista (MVD, por sus siglas en inglés) ha recibido mucha atención debido a sus ventajas en términos de generalización, calidad y eficiencia. Al ajustar modelos de difusión de imágenes preentrenados con datos 3D, los métodos MVD primero generan múltiples vistas de un objeto 3D basándose en una imagen o un texto de entrada, y luego reconstruyen formas 3D mediante reconstrucción 3D multivista. Sin embargo, las vistas dispersas y los detalles inconsistentes en las imágenes generadas hacen que la reconstrucción 3D sea un desafío. Presentamos MVD^2, un método eficiente de reconstrucción 3D para imágenes de difusión multivista (MVD). MVD^2 agrega características de imagen en un volumen de características 3D mediante proyección y convolución, y luego decodifica las características volumétricas en una malla 3D. Entrenamos MVD^2 con colecciones de formas 3D e imágenes MVD generadas a partir de vistas renderizadas de formas 3D. Para abordar la discrepancia entre las imágenes multivista generadas y las vistas de referencia de las formas 3D, diseñamos un esquema de entrenamiento dependiente de la vista simple pero eficiente. MVD^2 mejora la calidad de la generación 3D de MVD y es rápido y robusto frente a diversos métodos MVD. Después del entrenamiento, puede decodificar eficientemente mallas 3D a partir de imágenes multivista en menos de un segundo. Entrenamos MVD^2 con Zero-123++ y el conjunto de datos 3D ObjectVerse-LVIS, y demostramos su rendimiento superior en la generación de modelos 3D a partir de imágenes multivista generadas por diferentes métodos MVD, utilizando tanto imágenes sintéticas como reales como entradas.

English

As a promising 3D generation technique, multiview diffusion (MVD) has received a lot of attention due to its advantages in terms of generalizability, quality, and efficiency. By finetuning pretrained large image diffusion models with 3D data, the MVD methods first generate multiple views of a 3D object based on an image or text prompt and then reconstruct 3D shapes with multiview 3D reconstruction. However, the sparse views and inconsistent details in the generated images make 3D reconstruction challenging. We present MVD^2, an efficient 3D reconstruction method for multiview diffusion (MVD) images. MVD^2 aggregates image features into a 3D feature volume by projection and convolution and then decodes volumetric features into a 3D mesh. We train MVD^2 with 3D shape collections and MVD images prompted by rendered views of 3D shapes. To address the discrepancy between the generated multiview images and ground-truth views of the 3D shapes, we design a simple-yet-efficient view-dependent training scheme. MVD^2 improves the 3D generation quality of MVD and is fast and robust to various MVD methods. After training, it can efficiently decode 3D meshes from multiview images within one second. We train MVD^2 with Zero-123++ and ObjectVerse-LVIS 3D dataset and demonstrate its superior performance in generating 3D models from multiview images generated by different MVD methods, using both synthetic and real images as prompts.

MVD^2: Reconstrucción 3D multivista eficiente para difusión multivista

MVD^2: Efficient Multiview 3D Reconstruction for Multiview Diffusion

Resumen

Support