DiffusionGAN3D: 3D GAN과 Diffusion Prior를 결합하여 텍스트 기반 3D 생성 및 도메인 적응 성능 향상
DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors
December 28, 2023
저자: Biwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie
cs.AI
초록
텍스트 기반 3D 초상화 도메인 적응 및 생성은 다양한 분야에서 많은 응용 가능성을 가지고 있습니다. 그러나 학습 데이터의 부족과 기하학적 구조 및 외관의 높은 다양성을 다루는 데 있어서의 어려움으로 인해, 기존 방법들은 유연성 부족, 불안정성, 그리고 낮은 품질과 같은 문제를 겪고 있습니다. 본 논문에서는 3D GAN과 디퓨전 프라이어를 결합하여 텍스트 기반 3D 도메인 적응 및 생성을 강화하는 새로운 프레임워크인 DiffusionGAN3D를 제안합니다. 구체적으로, 사전 학습된 3D 생성 모델(예: EG3D)과 텍스트-이미지 디퓨전 모델을 통합합니다. 전자는 텍스트로부터 안정적이고 고품질의 아바타 생성을 위한 강력한 기반을 제공합니다. 그리고 디퓨전 모델은 강력한 프라이어를 제공하고 정보성 있는 방향으로 3D 생성기의 미세 조정을 안내하여 유연하고 효율적인 텍스트 기반 도메인 적응을 달성합니다. 도메인 적응의 다양성과 텍스트-아바타 생성 능력을 향상시키기 위해, 우리는 상대적 거리 손실과 사례별 학습 가능한 트라이플레인을 각각 도입했습니다. 또한, 위의 두 작업 모두에 대한 텍스처 품질을 개선하기 위해 점진적 텍스처 정제 모듈을 설계했습니다. 광범위한 실험을 통해 제안된 프레임워크가 도메인 적응 및 텍스트-아바타 작업 모두에서 우수한 결과를 달성하며, 생성 품질과 효율성 측면에서 기존 방법들을 능가함을 입증했습니다. 프로젝트 홈페이지는 https://younglbw.github.io/DiffusionGAN3D-homepage/에서 확인할 수 있습니다.
English
Text-guided domain adaption and generation of 3D-aware portraits find many
applications in various fields. However, due to the lack of training data and
the challenges in handling the high variety of geometry and appearance, the
existing methods for these tasks suffer from issues like inflexibility,
instability, and low fidelity. In this paper, we propose a novel framework
DiffusionGAN3D, which boosts text-guided 3D domain adaption and generation by
combining 3D GANs and diffusion priors. Specifically, we integrate the
pre-trained 3D generative models (e.g., EG3D) and text-to-image diffusion
models. The former provides a strong foundation for stable and high-quality
avatar generation from text. And the diffusion models in turn offer powerful
priors and guide the 3D generator finetuning with informative direction to
achieve flexible and efficient text-guided domain adaption. To enhance the
diversity in domain adaption and the generation capability in text-to-avatar,
we introduce the relative distance loss and case-specific learnable triplane
respectively. Besides, we design a progressive texture refinement module to
improve the texture quality for both tasks above. Extensive experiments
demonstrate that the proposed framework achieves excellent results in both
domain adaption and text-to-avatar tasks, outperforming existing methods in
terms of generation quality and efficiency. The project homepage is at
https://younglbw.github.io/DiffusionGAN3D-homepage/.