DiffusionGAN3D : Amélioration de la génération 3D guidée par texte et de l'adaptation de domaine par combinaison de GANs 3D et de modèles de diffusion
DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors
December 28, 2023
Auteurs: Biwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie
cs.AI
Résumé
L'adaptation de domaine et la génération de portraits 3D guidés par texte trouvent de nombreuses applications dans divers domaines. Cependant, en raison du manque de données d'entraînement et des défis liés à la gestion de la grande variété de géométries et d'apparences, les méthodes existantes pour ces tâches souffrent de problèmes tels que l'inflexibilité, l'instabilité et une faible fidélité. Dans cet article, nous proposons un nouveau cadre, DiffusionGAN3D, qui améliore l'adaptation de domaine 3D et la génération guidées par texte en combinant des GAN 3D et des modèles de diffusion. Plus précisément, nous intégrons des modèles génératifs 3D pré-entraînés (par exemple, EG3D) et des modèles de diffusion texte-à-image. Les premiers fournissent une base solide pour la génération stable et de haute qualité d'avatars à partir de texte. Les modèles de diffusion, quant à eux, offrent des a priori puissants et guident le réglage fin du générateur 3D avec des directions informatives pour réaliser une adaptation de domaine flexible et efficace guidée par texte. Pour améliorer la diversité dans l'adaptation de domaine et la capacité de génération dans la tâche texte-à-avatar, nous introduisons respectivement la perte de distance relative et un triplan spécifique et apprenable. En outre, nous concevons un module de raffinement progressif de la texture pour améliorer la qualité de la texture pour les deux tâches mentionnées ci-dessus. Des expériences approfondies démontrent que le cadre proposé obtient d'excellents résultats à la fois dans l'adaptation de domaine et dans la tâche texte-à-avatar, surpassant les méthodes existantes en termes de qualité et d'efficacité de génération. La page d'accueil du projet est disponible à l'adresse https://younglbw.github.io/DiffusionGAN3D-homepage/.
English
Text-guided domain adaption and generation of 3D-aware portraits find many
applications in various fields. However, due to the lack of training data and
the challenges in handling the high variety of geometry and appearance, the
existing methods for these tasks suffer from issues like inflexibility,
instability, and low fidelity. In this paper, we propose a novel framework
DiffusionGAN3D, which boosts text-guided 3D domain adaption and generation by
combining 3D GANs and diffusion priors. Specifically, we integrate the
pre-trained 3D generative models (e.g., EG3D) and text-to-image diffusion
models. The former provides a strong foundation for stable and high-quality
avatar generation from text. And the diffusion models in turn offer powerful
priors and guide the 3D generator finetuning with informative direction to
achieve flexible and efficient text-guided domain adaption. To enhance the
diversity in domain adaption and the generation capability in text-to-avatar,
we introduce the relative distance loss and case-specific learnable triplane
respectively. Besides, we design a progressive texture refinement module to
improve the texture quality for both tasks above. Extensive experiments
demonstrate that the proposed framework achieves excellent results in both
domain adaption and text-to-avatar tasks, outperforming existing methods in
terms of generation quality and efficiency. The project homepage is at
https://younglbw.github.io/DiffusionGAN3D-homepage/.