DiffusionGAN3D: Verbesserung der textgesteuerten 3D-Generierung und Domänenanpassung durch die Kombination von 3D-GANs und Diffusions-Priors
DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors
December 28, 2023
Autoren: Biwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie
cs.AI
Zusammenfassung
Textgesteuerte Domänenanpassung und Generierung von 3D-Porträts finden in verschiedenen Bereichen zahlreiche Anwendungen. Aufgrund des Mangels an Trainingsdaten und der Herausforderungen bei der Handhabung der hohen Vielfalt an Geometrie und Erscheinungsbild leiden die bestehenden Methoden für diese Aufgaben jedoch unter Problemen wie Unflexibilität, Instabilität und geringer Qualität. In diesem Artikel schlagen wir ein neuartiges Framework namens DiffusionGAN3D vor, das die textgesteuerte 3D-Domänenanpassung und Generierung durch die Kombination von 3D-GANs und Diffusionspriors verbessert. Konkret integrieren wir vortrainierte 3D-Generativmodelle (z.B. EG3D) und Text-zu-Bild-Diffusionsmodelle. Erstere bieten eine solide Grundlage für die stabile und hochwertige Generierung von Avataren aus Text. Die Diffusionsmodelle wiederum liefern leistungsstarke Priors und leiten die Feinabstimmung des 3D-Generators mit informativen Richtungen an, um eine flexible und effiziente textgesteuerte Domänenanpassung zu erreichen. Um die Vielfalt in der Domänenanpassung und die Generierungsfähigkeit bei der Text-zu-Avatar-Erstellung zu verbessern, führen wir den relativen Distanzverlust bzw. fallbezogene lernbare Triplanes ein. Zudem entwerfen wir ein Modul zur progressiven Texturverfeinerung, um die Texturqualität für beide oben genannten Aufgaben zu steigern. Umfangreiche Experimente zeigen, dass das vorgeschlagene Framework sowohl bei der Domänenanpassung als auch bei der Text-zu-Avatar-Generierung hervorragende Ergebnisse erzielt und bestehende Methoden in Bezug auf Generierungsqualität und Effizienz übertrifft. Die Projekt-Homepage befindet sich unter https://younglbw.github.io/DiffusionGAN3D-homepage/.
English
Text-guided domain adaption and generation of 3D-aware portraits find many
applications in various fields. However, due to the lack of training data and
the challenges in handling the high variety of geometry and appearance, the
existing methods for these tasks suffer from issues like inflexibility,
instability, and low fidelity. In this paper, we propose a novel framework
DiffusionGAN3D, which boosts text-guided 3D domain adaption and generation by
combining 3D GANs and diffusion priors. Specifically, we integrate the
pre-trained 3D generative models (e.g., EG3D) and text-to-image diffusion
models. The former provides a strong foundation for stable and high-quality
avatar generation from text. And the diffusion models in turn offer powerful
priors and guide the 3D generator finetuning with informative direction to
achieve flexible and efficient text-guided domain adaption. To enhance the
diversity in domain adaption and the generation capability in text-to-avatar,
we introduce the relative distance loss and case-specific learnable triplane
respectively. Besides, we design a progressive texture refinement module to
improve the texture quality for both tasks above. Extensive experiments
demonstrate that the proposed framework achieves excellent results in both
domain adaption and text-to-avatar tasks, outperforming existing methods in
terms of generation quality and efficiency. The project homepage is at
https://younglbw.github.io/DiffusionGAN3D-homepage/.