StyleAvatar3D: Aproveitando Modelos de Difusão de Imagem-Texto para Geração de Avatares 3D de Alta Fidelidade
StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation
May 30, 2023
Autores: Chi Zhang, Yiwen Chen, Yijun Fu, Zhenglin Zhou, Gang YU, Billzb Wang, Bin Fu, Tao Chen, Guosheng Lin, Chunhua Shen
cs.AI
Resumo
Os recentes avanços em modelos de difusão de imagem-texto têm estimulado o interesse de pesquisa em modelos generativos 3D em grande escala. No entanto, a disponibilidade limitada de recursos 3D diversos apresenta desafios significativos para o aprendizado. Neste artigo, apresentamos um método inovador para gerar avatares 3D estilizados de alta qualidade, que utiliza modelos de difusão de imagem-texto pré-treinados para geração de dados e uma rede de geração 3D baseada em Generative Adversarial Network (GAN) para treinamento. Nosso método aproveita os priors abrangentes de aparência e geometria oferecidos pelos modelos de difusão de imagem-texto para gerar imagens multi-visão de avatares em vários estilos. Durante a geração de dados, empregamos poses extraídas de modelos 3D existentes para orientar a geração de imagens multi-visão. Para abordar o desalinhamento entre poses e imagens nos dados, investigamos prompts específicos de visão e desenvolvemos um discriminador de granularidade grossa para fina para o treinamento da GAN. Também exploramos prompts relacionados a atributos para aumentar a diversidade dos avatares gerados. Além disso, desenvolvemos um modelo de difusão latente dentro do espaço de estilo do StyleGAN para permitir a geração de avatares com base em entradas de imagem. Nossa abordagem demonstra desempenho superior em relação aos métodos atuais de última geração em termos de qualidade visual e diversidade dos avatares produzidos.
English
The recent advancements in image-text diffusion models have stimulated
research interest in large-scale 3D generative models. Nevertheless, the
limited availability of diverse 3D resources presents significant challenges to
learning. In this paper, we present a novel method for generating high-quality,
stylized 3D avatars that utilizes pre-trained image-text diffusion models for
data generation and a Generative Adversarial Network (GAN)-based 3D generation
network for training. Our method leverages the comprehensive priors of
appearance and geometry offered by image-text diffusion models to generate
multi-view images of avatars in various styles. During data generation, we
employ poses extracted from existing 3D models to guide the generation of
multi-view images. To address the misalignment between poses and images in
data, we investigate view-specific prompts and develop a coarse-to-fine
discriminator for GAN training. We also delve into attribute-related prompts to
increase the diversity of the generated avatars. Additionally, we develop a
latent diffusion model within the style space of StyleGAN to enable the
generation of avatars based on image inputs. Our approach demonstrates superior
performance over current state-of-the-art methods in terms of visual quality
and diversity of the produced avatars.