Wonder3D: 3D-Erzeugung aus einem Einzelbild mittels domänenübergreifender Diffusion
Wonder3D: Single Image to 3D using Cross-Domain Diffusion
October 23, 2023
Autoren: Xiaoxiao Long, Yuan-Chen Guo, Cheng Lin, Yuan Liu, Zhiyang Dou, Lingjie Liu, Yuexin Ma, Song-Hai Zhang, Marc Habermann, Christian Theobalt, Wenping Wang
cs.AI
Zusammenfassung
In dieser Arbeit stellen wir Wonder3D vor, eine neuartige Methode zur effizienten Erzeugung hochwertiger texturierter Meshes aus Einzelbildansichten. Aktuelle Methoden, die auf Score Distillation Sampling (SDS) basieren, haben das Potenzial gezeigt, 3D-Geometrie aus 2D-Diffusionspriors wiederherzustellen, leiden jedoch typischerweise unter zeitaufwändiger pro-Form-Optimierung und inkonsistenter Geometrie. Im Gegensatz dazu erzeugen bestimmte Ansätze 3D-Informationen direkt durch schnelle Netzwerkinferenzen, doch deren Ergebnisse sind oft von geringer Qualität und weisen mangelnde geometrische Details auf. Um die Qualität, Konsistenz und Effizienz von Bild-zu-3D-Aufgaben ganzheitlich zu verbessern, schlagen wir ein domänenübergreifendes Diffusionsmodell vor, das Multi-View-Normalmaps und die entsprechenden Farbbilder erzeugt. Um die Konsistenz zu gewährleisten, verwenden wir einen Multi-View-domänenübergreifenden Aufmerksamkeitsmechanismus, der den Informationsaustausch über Ansichten und Modalitäten hinweg erleichtert. Schließlich führen wir einen geometriebewussten Normal-Fusion-Algorithmus ein, der hochwertige Oberflächen aus den Multi-View-2D-Darstellungen extrahiert. Unsere umfangreichen Auswertungen zeigen, dass unsere Methode im Vergleich zu früheren Arbeiten hochwertige Rekonstruktionsergebnisse, robuste Generalisierung und eine angemessene Effizienz erreicht.
English
In this work, we introduce Wonder3D, a novel method for efficiently
generating high-fidelity textured meshes from single-view images.Recent methods
based on Score Distillation Sampling (SDS) have shown the potential to recover
3D geometry from 2D diffusion priors, but they typically suffer from
time-consuming per-shape optimization and inconsistent geometry. In contrast,
certain works directly produce 3D information via fast network inferences, but
their results are often of low quality and lack geometric details. To
holistically improve the quality, consistency, and efficiency of image-to-3D
tasks, we propose a cross-domain diffusion model that generates multi-view
normal maps and the corresponding color images. To ensure consistency, we
employ a multi-view cross-domain attention mechanism that facilitates
information exchange across views and modalities. Lastly, we introduce a
geometry-aware normal fusion algorithm that extracts high-quality surfaces from
the multi-view 2D representations. Our extensive evaluations demonstrate that
our method achieves high-quality reconstruction results, robust generalization,
and reasonably good efficiency compared to prior works.