DiffusionGAN3D: Impulsionando a Geração 3D Guiada por Texto e Adaptação de Domínio através da Combinação de GANs 3D e Priors de Difusão
DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors
December 28, 2023
Autores: Biwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie
cs.AI
Resumo
A adaptação de domínio e a geração de retratos 3D guiados por texto encontram muitas aplicações em diversos campos. No entanto, devido à escassez de dados de treinamento e aos desafios em lidar com a alta variedade de geometria e aparência, os métodos existentes para essas tarefas sofrem com problemas como inflexibilidade, instabilidade e baixa fidelidade. Neste artigo, propomos um novo framework chamado DiffusionGAN3D, que impulsiona a adaptação de domínio e a geração 3D guiadas por texto ao combinar GANs 3D e priors de difusão. Especificamente, integramos modelos generativos 3D pré-treinados (por exemplo, EG3D) e modelos de difusão texto-para-imagem. O primeiro fornece uma base sólida para a geração estável e de alta qualidade de avatares a partir de texto. E os modelos de difusão, por sua vez, oferecem priors poderosos e guiam o ajuste fino do gerador 3D com direcionamento informativo para alcançar uma adaptação de domínio guiada por texto flexível e eficiente. Para aumentar a diversidade na adaptação de domínio e a capacidade de geração no texto-para-avatar, introduzimos a perda de distância relativa e o triplano aprendível específico para cada caso, respectivamente. Além disso, projetamos um módulo de refinamento progressivo de textura para melhorar a qualidade da textura em ambas as tarefas mencionadas. Experimentos extensivos demonstram que o framework proposto alcança excelentes resultados tanto na adaptação de domínio quanto nas tarefas de texto-para-avatar, superando os métodos existentes em termos de qualidade e eficiência de geração. A página do projeto está disponível em https://younglbw.github.io/DiffusionGAN3D-homepage/.
English
Text-guided domain adaption and generation of 3D-aware portraits find many
applications in various fields. However, due to the lack of training data and
the challenges in handling the high variety of geometry and appearance, the
existing methods for these tasks suffer from issues like inflexibility,
instability, and low fidelity. In this paper, we propose a novel framework
DiffusionGAN3D, which boosts text-guided 3D domain adaption and generation by
combining 3D GANs and diffusion priors. Specifically, we integrate the
pre-trained 3D generative models (e.g., EG3D) and text-to-image diffusion
models. The former provides a strong foundation for stable and high-quality
avatar generation from text. And the diffusion models in turn offer powerful
priors and guide the 3D generator finetuning with informative direction to
achieve flexible and efficient text-guided domain adaption. To enhance the
diversity in domain adaption and the generation capability in text-to-avatar,
we introduce the relative distance loss and case-specific learnable triplane
respectively. Besides, we design a progressive texture refinement module to
improve the texture quality for both tasks above. Extensive experiments
demonstrate that the proposed framework achieves excellent results in both
domain adaption and text-to-avatar tasks, outperforming existing methods in
terms of generation quality and efficiency. The project homepage is at
https://younglbw.github.io/DiffusionGAN3D-homepage/.