ChatPaper.aiChatPaper

DiffusionGAN3D: Potenciando la generación 3D guiada por texto y la adaptación de dominio mediante la combinación de GANs 3D y priores de difusión

DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors

December 28, 2023
Autores: Biwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie
cs.AI

Resumen

La adaptación de dominio y la generación de retratos 3D guiados por texto encuentran muchas aplicaciones en diversos campos. Sin embargo, debido a la falta de datos de entrenamiento y a los desafíos en el manejo de la alta variedad de geometría y apariencia, los métodos existentes para estas tareas sufren de problemas como inflexibilidad, inestabilidad y baja fidelidad. En este artículo, proponemos un nuevo marco llamado DiffusionGAN3D, que impulsa la adaptación de dominio y la generación 3D guiadas por texto al combinar GANs 3D y modelos de difusión. Específicamente, integramos modelos generativos 3D preentrenados (por ejemplo, EG3D) y modelos de difusión de texto a imagen. El primero proporciona una base sólida para la generación estable y de alta calidad de avatares a partir de texto. Y los modelos de difusión, a su vez, ofrecen poderosos priores y guían el ajuste fino del generador 3D con una dirección informativa para lograr una adaptación de dominio guiada por texto flexible y eficiente. Para mejorar la diversidad en la adaptación de dominio y la capacidad de generación en la tarea de texto a avatar, introducimos la pérdida de distancia relativa y el triplano aprendible específico para cada caso, respectivamente. Además, diseñamos un módulo de refinamiento progresivo de texturas para mejorar la calidad de las texturas en ambas tareas mencionadas. Experimentos extensivos demuestran que el marco propuesto logra resultados excelentes tanto en la adaptación de dominio como en la tarea de texto a avatar, superando a los métodos existentes en términos de calidad y eficiencia de generación. La página principal del proyecto se encuentra en https://younglbw.github.io/DiffusionGAN3D-homepage/.
English
Text-guided domain adaption and generation of 3D-aware portraits find many applications in various fields. However, due to the lack of training data and the challenges in handling the high variety of geometry and appearance, the existing methods for these tasks suffer from issues like inflexibility, instability, and low fidelity. In this paper, we propose a novel framework DiffusionGAN3D, which boosts text-guided 3D domain adaption and generation by combining 3D GANs and diffusion priors. Specifically, we integrate the pre-trained 3D generative models (e.g., EG3D) and text-to-image diffusion models. The former provides a strong foundation for stable and high-quality avatar generation from text. And the diffusion models in turn offer powerful priors and guide the 3D generator finetuning with informative direction to achieve flexible and efficient text-guided domain adaption. To enhance the diversity in domain adaption and the generation capability in text-to-avatar, we introduce the relative distance loss and case-specific learnable triplane respectively. Besides, we design a progressive texture refinement module to improve the texture quality for both tasks above. Extensive experiments demonstrate that the proposed framework achieves excellent results in both domain adaption and text-to-avatar tasks, outperforming existing methods in terms of generation quality and efficiency. The project homepage is at https://younglbw.github.io/DiffusionGAN3D-homepage/.
PDF61December 15, 2024