StyleAvatar3D: Aproveitando Modelos de Difusão de Imagem-Texto para Geração de Avatares 3D de Alta Fidelidade

Resumo

Os recentes avanços em modelos de difusão de imagem-texto têm estimulado o interesse de pesquisa em modelos generativos 3D em grande escala. No entanto, a disponibilidade limitada de recursos 3D diversos apresenta desafios significativos para o aprendizado. Neste artigo, apresentamos um método inovador para gerar avatares 3D estilizados de alta qualidade, que utiliza modelos de difusão de imagem-texto pré-treinados para geração de dados e uma rede de geração 3D baseada em Generative Adversarial Network (GAN) para treinamento. Nosso método aproveita os priors abrangentes de aparência e geometria oferecidos pelos modelos de difusão de imagem-texto para gerar imagens multi-visão de avatares em vários estilos. Durante a geração de dados, empregamos poses extraídas de modelos 3D existentes para orientar a geração de imagens multi-visão. Para abordar o desalinhamento entre poses e imagens nos dados, investigamos prompts específicos de visão e desenvolvemos um discriminador de granularidade grossa para fina para o treinamento da GAN. Também exploramos prompts relacionados a atributos para aumentar a diversidade dos avatares gerados. Além disso, desenvolvemos um modelo de difusão latente dentro do espaço de estilo do StyleGAN para permitir a geração de avatares com base em entradas de imagem. Nossa abordagem demonstra desempenho superior em relação aos métodos atuais de última geração em termos de qualidade visual e diversidade dos avatares produzidos.

English

The recent advancements in image-text diffusion models have stimulated research interest in large-scale 3D generative models. Nevertheless, the limited availability of diverse 3D resources presents significant challenges to learning. In this paper, we present a novel method for generating high-quality, stylized 3D avatars that utilizes pre-trained image-text diffusion models for data generation and a Generative Adversarial Network (GAN)-based 3D generation network for training. Our method leverages the comprehensive priors of appearance and geometry offered by image-text diffusion models to generate multi-view images of avatars in various styles. During data generation, we employ poses extracted from existing 3D models to guide the generation of multi-view images. To address the misalignment between poses and images in data, we investigate view-specific prompts and develop a coarse-to-fine discriminator for GAN training. We also delve into attribute-related prompts to increase the diversity of the generated avatars. Additionally, we develop a latent diffusion model within the style space of StyleGAN to enable the generation of avatars based on image inputs. Our approach demonstrates superior performance over current state-of-the-art methods in terms of visual quality and diversity of the produced avatars.

StyleAvatar3D: Aproveitando Modelos de Difusão de Imagem-Texto para Geração de Avatares 3D de Alta Fidelidade

StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation

Resumo

Support