Text-zu-3D-Generierung mit bidirektionaler Diffusion unter Verwendung von 2D- und 3D-Priors
Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors
December 7, 2023
Autoren: Lihe Ding, Shaocong Dong, Zhanpeng Huang, Zibin Wang, Yiyuan Zhang, Kaixiong Gong, Dan Xu, Tianfan Xue
cs.AI
Zusammenfassung
Die meisten Forschungen zur 3D-Generierung konzentrieren sich darauf, 2D-Foundation-Modelle in den 3D-Raum zu projizieren, entweder durch die Minimierung des 2D-Score-Distillation-Sampling (SDS)-Verlusts oder durch Feinabstimmung auf Multi-View-Datensätze. Ohne explizite 3D-Priors führen diese Methoden oft zu geometrischen Anomalien und Inkonsistenzen zwischen den Ansichten. Kürzlich haben Forscher versucht, die Authentizität von 3D-Objekten zu verbessern, indem sie direkt auf 3D-Datensätzen trainieren, allerdings auf Kosten einer qualitativ minderwertigen Texturgenerierung aufgrund der begrenzten Texturvielfalt in 3D-Datensätzen. Um die Vorteile beider Ansätze zu nutzen, schlagen wir Bidirectional Diffusion (BiDiff) vor, ein einheitliches Framework, das sowohl einen 3D- als auch einen 2D-Diffusionsprozess integriert, um jeweils die 3D-Treue und die 2D-Texturreichhaltigkeit zu bewahren. Darüber hinaus, da eine einfache Kombination zu inkonsistenten Generierungsergebnissen führen kann, verbinden wir sie zusätzlich mit einer neuartigen bidirektionalen Führung. Zudem kann unsere Methode als Initialisierung für optimierungsbasierte Modelle verwendet werden, um die Qualität des 3D-Modells und die Effizienz der Optimierung weiter zu verbessern, wodurch der Generierungsprozess von 3,4 Stunden auf 20 Minuten reduziert wird. Experimentelle Ergebnisse haben gezeigt, dass unser Modell eine hochwertige, vielfältige und skalierbare 3D-Generierung erreicht. Projektwebsite: https://bidiff.github.io/.
English
Most 3D generation research focuses on up-projecting 2D foundation models
into the 3D space, either by minimizing 2D Score Distillation Sampling (SDS)
loss or fine-tuning on multi-view datasets. Without explicit 3D priors, these
methods often lead to geometric anomalies and multi-view inconsistency.
Recently, researchers have attempted to improve the genuineness of 3D objects
by directly training on 3D datasets, albeit at the cost of low-quality texture
generation due to the limited texture diversity in 3D datasets. To harness the
advantages of both approaches, we propose Bidirectional Diffusion(BiDiff), a
unified framework that incorporates both a 3D and a 2D diffusion process, to
preserve both 3D fidelity and 2D texture richness, respectively. Moreover, as a
simple combination may yield inconsistent generation results, we further bridge
them with novel bidirectional guidance. In addition, our method can be used as
an initialization of optimization-based models to further improve the quality
of 3D model and efficiency of optimization, reducing the generation process
from 3.4 hours to 20 minutes. Experimental results have shown that our model
achieves high-quality, diverse, and scalable 3D generation. Project website:
https://bidiff.github.io/.