StyleAvatar3D: 画像-テキスト拡散モデルを活用した高精細3Dアバター生成
StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation
May 30, 2023
著者: Chi Zhang, Yiwen Chen, Yijun Fu, Zhenglin Zhou, Gang YU, Billzb Wang, Bin Fu, Tao Chen, Guosheng Lin, Chunhua Shen
cs.AI
要旨
近年の画像-テキスト拡散モデルの進展は、大規模な3D生成モデルへの研究関心を刺激しています。しかしながら、多様な3Dリソースの限られた可用性は、学習に重大な課題を提示しています。本論文では、事前学習済みの画像-テキスト拡散モデルをデータ生成に活用し、Generative Adversarial Network(GAN)ベースの3D生成ネットワークを訓練に用いることで、高品質でスタイリッシュな3Dアバターを生成する新規手法を提案します。本手法は、画像-テキスト拡散モデルが提供する外観と形状に関する包括的な事前知識を活用し、様々なスタイルのアバターの多視点画像を生成します。データ生成においては、既存の3Dモデルから抽出したポーズを用いて多視点画像の生成を誘導します。データにおけるポーズと画像の不整合に対処するため、視点固有のプロンプトを調査し、GAN訓練のための粗から細への識別器を開発します。また、生成されるアバターの多様性を高めるため、属性関連のプロンプトについても探究します。さらに、StyleGANのスタイル空間内で潜在拡散モデルを開発し、画像入力に基づくアバター生成を可能にします。本手法は、生成されるアバターの視覚的品質と多様性において、現在の最先端手法を凌駕する性能を示しています。
English
The recent advancements in image-text diffusion models have stimulated
research interest in large-scale 3D generative models. Nevertheless, the
limited availability of diverse 3D resources presents significant challenges to
learning. In this paper, we present a novel method for generating high-quality,
stylized 3D avatars that utilizes pre-trained image-text diffusion models for
data generation and a Generative Adversarial Network (GAN)-based 3D generation
network for training. Our method leverages the comprehensive priors of
appearance and geometry offered by image-text diffusion models to generate
multi-view images of avatars in various styles. During data generation, we
employ poses extracted from existing 3D models to guide the generation of
multi-view images. To address the misalignment between poses and images in
data, we investigate view-specific prompts and develop a coarse-to-fine
discriminator for GAN training. We also delve into attribute-related prompts to
increase the diversity of the generated avatars. Additionally, we develop a
latent diffusion model within the style space of StyleGAN to enable the
generation of avatars based on image inputs. Our approach demonstrates superior
performance over current state-of-the-art methods in terms of visual quality
and diversity of the produced avatars.