DiffusionGAN3D: Verbetering van tekstgestuurde 3D-generatie en domeinaanpassing door 3D GAN's en diffusieprioriteiten te combineren
DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors
December 28, 2023
Auteurs: Biwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie
cs.AI
Samenvatting
Tekstgeleide domeinaanpassing en generatie van 3D-aware portretten vinden veel toepassingen in verschillende vakgebieden. Vanwege het gebrek aan trainingsdata en de uitdagingen bij het omgaan met de grote verscheidenheid aan geometrie en uiterlijk, kampen bestaande methoden voor deze taken echter met problemen zoals inflexibiliteit, instabiliteit en lage kwaliteit. In dit artikel stellen we een nieuw framework voor, DiffusionGAN3D, dat tekstgeleide 3D-domeinaanpassing en generatie verbetert door 3D GAN's en diffusiepriors te combineren. Specifiek integreren we vooraf getrainde 3D-generatieve modellen (bijv. EG3D) en tekst-naar-beeld diffusiemodellen. Het eerste biedt een sterke basis voor stabiele en hoogwaardige avatar-generatie vanuit tekst. De diffusiemodellen bieden op hun beurt krachtige priors en begeleiden de 3D-generator bij het finetunen met informatieve richting om flexibele en efficiënte tekstgeleide domeinaanpassing te bereiken. Om de diversiteit in domeinaanpassing en de generatiecapaciteit in tekst-naar-avatar te verbeteren, introduceren we respectievelijk het relatieve afstandsverlies en een casespecifiek leerbaar triplane. Daarnaast ontwerpen we een progressieve textuurverfijningsmodule om de textuurkwaliteit voor beide bovengenoemde taken te verbeteren. Uitgebreide experimenten tonen aan dat het voorgestelde framework uitstekende resultaten behaalt in zowel domeinaanpassing als tekst-naar-avatar taken, en bestaande methoden overtreft wat betreft generatiekwaliteit en efficiëntie. De projecthomepage is te vinden op https://younglbw.github.io/DiffusionGAN3D-homepage/.
English
Text-guided domain adaption and generation of 3D-aware portraits find many
applications in various fields. However, due to the lack of training data and
the challenges in handling the high variety of geometry and appearance, the
existing methods for these tasks suffer from issues like inflexibility,
instability, and low fidelity. In this paper, we propose a novel framework
DiffusionGAN3D, which boosts text-guided 3D domain adaption and generation by
combining 3D GANs and diffusion priors. Specifically, we integrate the
pre-trained 3D generative models (e.g., EG3D) and text-to-image diffusion
models. The former provides a strong foundation for stable and high-quality
avatar generation from text. And the diffusion models in turn offer powerful
priors and guide the 3D generator finetuning with informative direction to
achieve flexible and efficient text-guided domain adaption. To enhance the
diversity in domain adaption and the generation capability in text-to-avatar,
we introduce the relative distance loss and case-specific learnable triplane
respectively. Besides, we design a progressive texture refinement module to
improve the texture quality for both tasks above. Extensive experiments
demonstrate that the proposed framework achieves excellent results in both
domain adaption and text-to-avatar tasks, outperforming existing methods in
terms of generation quality and efficiency. The project homepage is at
https://younglbw.github.io/DiffusionGAN3D-homepage/.