ChatPaper.aiChatPaper

DiffusionGAN3D: 3D GAN과 Diffusion Prior를 결합하여 텍스트 기반 3D 생성 및 도메인 적응 성능 향상

DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors

December 28, 2023
저자: Biwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie
cs.AI

초록

텍스트 기반 3D 초상화 도메인 적응 및 생성은 다양한 분야에서 많은 응용 가능성을 가지고 있습니다. 그러나 학습 데이터의 부족과 기하학적 구조 및 외관의 높은 다양성을 다루는 데 있어서의 어려움으로 인해, 기존 방법들은 유연성 부족, 불안정성, 그리고 낮은 품질과 같은 문제를 겪고 있습니다. 본 논문에서는 3D GAN과 디퓨전 프라이어를 결합하여 텍스트 기반 3D 도메인 적응 및 생성을 강화하는 새로운 프레임워크인 DiffusionGAN3D를 제안합니다. 구체적으로, 사전 학습된 3D 생성 모델(예: EG3D)과 텍스트-이미지 디퓨전 모델을 통합합니다. 전자는 텍스트로부터 안정적이고 고품질의 아바타 생성을 위한 강력한 기반을 제공합니다. 그리고 디퓨전 모델은 강력한 프라이어를 제공하고 정보성 있는 방향으로 3D 생성기의 미세 조정을 안내하여 유연하고 효율적인 텍스트 기반 도메인 적응을 달성합니다. 도메인 적응의 다양성과 텍스트-아바타 생성 능력을 향상시키기 위해, 우리는 상대적 거리 손실과 사례별 학습 가능한 트라이플레인을 각각 도입했습니다. 또한, 위의 두 작업 모두에 대한 텍스처 품질을 개선하기 위해 점진적 텍스처 정제 모듈을 설계했습니다. 광범위한 실험을 통해 제안된 프레임워크가 도메인 적응 및 텍스트-아바타 작업 모두에서 우수한 결과를 달성하며, 생성 품질과 효율성 측면에서 기존 방법들을 능가함을 입증했습니다. 프로젝트 홈페이지는 https://younglbw.github.io/DiffusionGAN3D-homepage/에서 확인할 수 있습니다.
English
Text-guided domain adaption and generation of 3D-aware portraits find many applications in various fields. However, due to the lack of training data and the challenges in handling the high variety of geometry and appearance, the existing methods for these tasks suffer from issues like inflexibility, instability, and low fidelity. In this paper, we propose a novel framework DiffusionGAN3D, which boosts text-guided 3D domain adaption and generation by combining 3D GANs and diffusion priors. Specifically, we integrate the pre-trained 3D generative models (e.g., EG3D) and text-to-image diffusion models. The former provides a strong foundation for stable and high-quality avatar generation from text. And the diffusion models in turn offer powerful priors and guide the 3D generator finetuning with informative direction to achieve flexible and efficient text-guided domain adaption. To enhance the diversity in domain adaption and the generation capability in text-to-avatar, we introduce the relative distance loss and case-specific learnable triplane respectively. Besides, we design a progressive texture refinement module to improve the texture quality for both tasks above. Extensive experiments demonstrate that the proposed framework achieves excellent results in both domain adaption and text-to-avatar tasks, outperforming existing methods in terms of generation quality and efficiency. The project homepage is at https://younglbw.github.io/DiffusionGAN3D-homepage/.
PDF61December 15, 2024