MVD^2: Efficiënte multiview 3D-reconstructie voor multiview diffusie
MVD^2: Efficient Multiview 3D Reconstruction for Multiview Diffusion
February 22, 2024
Auteurs: Xin-Yang Zheng, Hao Pan, Yu-Xiao Guo, Xin Tong, Yang Liu
cs.AI
Samenvatting
Als veelbelovende 3D-generatietechniek heeft multiview-diffusie (MVD) veel aandacht gekregen vanwege de voordelen op het gebied van generaliseerbaarheid, kwaliteit en efficiëntie. Door vooraf getrainde grote beelddiffusiemodellen te finetunen met 3D-gegevens, genereren MVD-methoden eerst meerdere aanzichten van een 3D-object op basis van een afbeelding of tekstprompt en reconstrueren vervolgens 3D-vormen met multiview 3D-reconstructie. De schaarse aanzichten en inconsistente details in de gegenereerde afbeeldingen maken 3D-reconstructie echter uitdagend. Wij presenteren MVD^2, een efficiënte 3D-reconstructiemethode voor multiview-diffusie (MVD) afbeeldingen. MVD^2 aggregeert beeldkenmerken in een 3D-kenmerkvolume door projectie en convolutie en decodeert vervolgens volumetrische kenmerken in een 3D-mesh. We trainen MVD^2 met 3D-vormcollecties en MVD-afbeeldingen die worden gegenereerd door gerenderde aanzichten van 3D-vormen. Om het verschil tussen de gegenereerde multiview-afbeeldingen en de grondwaarheid-aanzichten van de 3D-vormen aan te pakken, ontwerpen we een eenvoudig maar efficiënt aanzichtafhankelijk trainingsschema. MVD^2 verbetert de 3D-generatiekwaliteit van MVD en is snel en robuust voor verschillende MVD-methoden. Na training kan het efficiënt 3D-meshes decoderen uit multiview-afbeeldingen binnen één seconde. We trainen MVD^2 met Zero-123++ en het ObjectVerse-LVIS 3D-dataset en demonstreren de superieure prestaties in het genereren van 3D-modellen uit multiview-afbeeldingen gegenereerd door verschillende MVD-methoden, waarbij zowel synthetische als echte afbeeldingen als prompts worden gebruikt.
English
As a promising 3D generation technique, multiview diffusion (MVD) has
received a lot of attention due to its advantages in terms of generalizability,
quality, and efficiency. By finetuning pretrained large image diffusion models
with 3D data, the MVD methods first generate multiple views of a 3D object
based on an image or text prompt and then reconstruct 3D shapes with multiview
3D reconstruction. However, the sparse views and inconsistent details in the
generated images make 3D reconstruction challenging. We present MVD^2, an
efficient 3D reconstruction method for multiview diffusion (MVD) images.
MVD^2 aggregates image features into a 3D feature volume by projection and
convolution and then decodes volumetric features into a 3D mesh. We train
MVD^2 with 3D shape collections and MVD images prompted by rendered views of
3D shapes. To address the discrepancy between the generated multiview images
and ground-truth views of the 3D shapes, we design a simple-yet-efficient
view-dependent training scheme. MVD^2 improves the 3D generation quality of
MVD and is fast and robust to various MVD methods. After training, it can
efficiently decode 3D meshes from multiview images within one second. We train
MVD^2 with Zero-123++ and ObjectVerse-LVIS 3D dataset and demonstrate its
superior performance in generating 3D models from multiview images generated by
different MVD methods, using both synthetic and real images as prompts.