ChatPaper.aiChatPaper

MVD^2: Effiziente Multiview-3D-Rekonstruktion für Multiview-Diffusion

MVD^2: Efficient Multiview 3D Reconstruction for Multiview Diffusion

February 22, 2024
Autoren: Xin-Yang Zheng, Hao Pan, Yu-Xiao Guo, Xin Tong, Yang Liu
cs.AI

Zusammenfassung

Als vielversprechende 3D-Generierungstechnik hat die Multiview-Diffusion (MVD) aufgrund ihrer Vorteile in Bezug auf Generalisierbarkeit, Qualität und Effizienz viel Aufmerksamkeit erhalten. Durch das Feinabstimmen vortrainierter großer Bilddiffusionsmodelle mit 3D-Daten generieren die MVD-Methoden zunächst mehrere Ansichten eines 3D-Objekts basierend auf einem Bild- oder Textprompt und rekonstruieren dann 3D-Formen durch Multiview-3D-Rekonstruktion. Die spärlichen Ansichten und inkonsistenten Details in den generierten Bildern machen die 3D-Rekonstruktion jedoch herausfordernd. Wir präsentieren MVD^2, eine effiziente 3D-Rekonstruktionsmethode für Multiview-Diffusion (MVD)-Bilder. MVD^2 aggregiert Bildmerkmale durch Projektion und Faltung in ein 3D-Merkmalvolumen und dekodiert dann volumetrische Merkmale in ein 3D-Mesh. Wir trainieren MVD^2 mit 3D-Formsammlungen und MVD-Bildern, die durch gerenderte Ansichten von 3D-Formen angeregt werden. Um die Diskrepanz zwischen den generierten Multiview-Bildern und den Ground-Truth-Ansichten der 3D-Formen zu adressieren, entwerfen wir ein einfaches, aber effizientes ansichtsabhängiges Trainingsschema. MVD^2 verbessert die 3D-Generierungsqualität von MVD und ist schnell und robust gegenüber verschiedenen MVD-Methoden. Nach dem Training kann es effizient 3D-Meshes aus Multiview-Bildern innerhalb einer Sekunde dekodieren. Wir trainieren MVD^2 mit Zero-123++ und dem ObjectVerse-LVIS-3D-Datensatz und demonstrieren seine überlegene Leistung bei der Generierung von 3D-Modellen aus Multiview-Bildern, die von verschiedenen MVD-Methoden generiert wurden, wobei sowohl synthetische als auch reale Bilder als Prompts verwendet werden.
English
As a promising 3D generation technique, multiview diffusion (MVD) has received a lot of attention due to its advantages in terms of generalizability, quality, and efficiency. By finetuning pretrained large image diffusion models with 3D data, the MVD methods first generate multiple views of a 3D object based on an image or text prompt and then reconstruct 3D shapes with multiview 3D reconstruction. However, the sparse views and inconsistent details in the generated images make 3D reconstruction challenging. We present MVD^2, an efficient 3D reconstruction method for multiview diffusion (MVD) images. MVD^2 aggregates image features into a 3D feature volume by projection and convolution and then decodes volumetric features into a 3D mesh. We train MVD^2 with 3D shape collections and MVD images prompted by rendered views of 3D shapes. To address the discrepancy between the generated multiview images and ground-truth views of the 3D shapes, we design a simple-yet-efficient view-dependent training scheme. MVD^2 improves the 3D generation quality of MVD and is fast and robust to various MVD methods. After training, it can efficiently decode 3D meshes from multiview images within one second. We train MVD^2 with Zero-123++ and ObjectVerse-LVIS 3D dataset and demonstrate its superior performance in generating 3D models from multiview images generated by different MVD methods, using both synthetic and real images as prompts.
PDF71December 15, 2024