ChatPaper.aiChatPaper

DiffusionGAN3D: Усиление генерации и адаптации 3D-моделей на основе текстовых описаний за счет комбинации 3D GAN и диффузионных моделей

DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors

December 28, 2023
Авторы: Biwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie
cs.AI

Аннотация

Адаптация и генерация 3D-портретов с текстовым управлением находят множество применений в различных областях. Однако из-за недостатка обучающих данных и сложностей, связанных с обработкой большого разнообразия геометрии и внешнего вида, существующие методы для этих задач страдают от таких проблем, как негибкость, нестабильность и низкая точность. В данной статье мы предлагаем новую структуру DiffusionGAN3D, которая улучшает адаптацию и генерацию 3D-доменов с текстовым управлением за счет комбинации 3D GAN и диффузионных априорных моделей. В частности, мы интегрируем предобученные 3D-генеративные модели (например, EG3D) и модели диффузии для преобразования текста в изображение. Первые обеспечивают прочную основу для стабильной и высококачественной генерации аватаров из текста. В свою очередь, модели диффузии предоставляют мощные априорные данные и направляют тонкую настройку 3D-генератора с информативным руководством для достижения гибкой и эффективной адаптации доменов с текстовым управлением. Для повышения разнообразия в адаптации доменов и способности генерации в задаче преобразования текста в аватар мы вводим соответственно функцию потерь на основе относительного расстояния и обучаемую триплоскость, специфичную для конкретного случая. Кроме того, мы разрабатываем прогрессивный модуль уточнения текстур для улучшения качества текстур в обеих задачах. Многочисленные эксперименты демонстрируют, что предложенная структура достигает превосходных результатов как в адаптации доменов, так и в задаче преобразования текста в аватар, превосходя существующие методы по качеству и эффективности генерации. Домашняя страница проекта доступна по адресу https://younglbw.github.io/DiffusionGAN3D-homepage/.
English
Text-guided domain adaption and generation of 3D-aware portraits find many applications in various fields. However, due to the lack of training data and the challenges in handling the high variety of geometry and appearance, the existing methods for these tasks suffer from issues like inflexibility, instability, and low fidelity. In this paper, we propose a novel framework DiffusionGAN3D, which boosts text-guided 3D domain adaption and generation by combining 3D GANs and diffusion priors. Specifically, we integrate the pre-trained 3D generative models (e.g., EG3D) and text-to-image diffusion models. The former provides a strong foundation for stable and high-quality avatar generation from text. And the diffusion models in turn offer powerful priors and guide the 3D generator finetuning with informative direction to achieve flexible and efficient text-guided domain adaption. To enhance the diversity in domain adaption and the generation capability in text-to-avatar, we introduce the relative distance loss and case-specific learnable triplane respectively. Besides, we design a progressive texture refinement module to improve the texture quality for both tasks above. Extensive experiments demonstrate that the proposed framework achieves excellent results in both domain adaption and text-to-avatar tasks, outperforming existing methods in terms of generation quality and efficiency. The project homepage is at https://younglbw.github.io/DiffusionGAN3D-homepage/.
PDF61December 15, 2024