MVD^2: Ricostruzione 3D Multivista Efficiente per la Diffusione Multivista
MVD^2: Efficient Multiview 3D Reconstruction for Multiview Diffusion
February 22, 2024
Autori: Xin-Yang Zheng, Hao Pan, Yu-Xiao Guo, Xin Tong, Yang Liu
cs.AI
Abstract
Come promettente tecnica di generazione 3D, la diffusione multivista (MVD) ha ricevuto molta attenzione grazie ai suoi vantaggi in termini di generalizzabilità, qualità ed efficienza. Ottimizzando modelli di diffusione di immagini pre-addestrati con dati 3D, i metodi MVD generano prima più viste di un oggetto 3D basandosi su un'immagine o un prompt testuale, per poi ricostruire forme 3D attraverso la ricostruzione multivista. Tuttavia, le viste sparse e i dettagli incoerenti nelle immagini generate rendono la ricostruzione 3D una sfida. Presentiamo MVD^2, un metodo efficiente di ricostruzione 3D per immagini di diffusione multivista (MVD). MVD^2 aggrega le caratteristiche delle immagini in un volume di caratteristiche 3D attraverso proiezione e convoluzione, per poi decodificare le caratteristiche volumetriche in una mesh 3D. Addestriamo MVD^2 con collezioni di forme 3D e immagini MVD generate da viste renderizzate di forme 3D. Per affrontare la discrepanza tra le immagini multivista generate e le viste reali delle forme 3D, progettiamo uno schema di addestramento dipendente dalla vista semplice ma efficiente. MVD^2 migliora la qualità della generazione 3D della MVD ed è veloce e robusto rispetto a vari metodi MVD. Dopo l'addestramento, può decodificare efficientemente mesh 3D da immagini multivista in meno di un secondo. Addestriamo MVD^2 con Zero-123++ e il dataset ObjectVerse-LVIS 3D, dimostrando le sue prestazioni superiori nella generazione di modelli 3D da immagini multivista prodotte da diversi metodi MVD, utilizzando sia immagini sintetiche che reali come prompt.
English
As a promising 3D generation technique, multiview diffusion (MVD) has
received a lot of attention due to its advantages in terms of generalizability,
quality, and efficiency. By finetuning pretrained large image diffusion models
with 3D data, the MVD methods first generate multiple views of a 3D object
based on an image or text prompt and then reconstruct 3D shapes with multiview
3D reconstruction. However, the sparse views and inconsistent details in the
generated images make 3D reconstruction challenging. We present MVD^2, an
efficient 3D reconstruction method for multiview diffusion (MVD) images.
MVD^2 aggregates image features into a 3D feature volume by projection and
convolution and then decodes volumetric features into a 3D mesh. We train
MVD^2 with 3D shape collections and MVD images prompted by rendered views of
3D shapes. To address the discrepancy between the generated multiview images
and ground-truth views of the 3D shapes, we design a simple-yet-efficient
view-dependent training scheme. MVD^2 improves the 3D generation quality of
MVD and is fast and robust to various MVD methods. After training, it can
efficiently decode 3D meshes from multiview images within one second. We train
MVD^2 with Zero-123++ and ObjectVerse-LVIS 3D dataset and demonstrate its
superior performance in generating 3D models from multiview images generated by
different MVD methods, using both synthetic and real images as prompts.