ChatPaper.aiChatPaper

StyleAvatar3D: Aprovechando Modelos de Difusión de Imagen-Texto para la Generación de Avatares 3D de Alta Fidelidad

StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation

May 30, 2023
Autores: Chi Zhang, Yiwen Chen, Yijun Fu, Zhenglin Zhou, Gang YU, Billzb Wang, Bin Fu, Tao Chen, Guosheng Lin, Chunhua Shen
cs.AI

Resumen

Los recientes avances en los modelos de difusión de imagen-texto han estimulado el interés en la investigación de modelos generativos 3D a gran escala. Sin embargo, la disponibilidad limitada de recursos 3D diversos presenta desafíos significativos para el aprendizaje. En este artículo, presentamos un método novedoso para generar avatares 3D estilizados de alta calidad que utiliza modelos de difusión de imagen-texto preentrenados para la generación de datos y una red generativa adversarial (GAN) para la generación 3D durante el entrenamiento. Nuestro método aprovecha los conocimientos previos integrales de apariencia y geometría ofrecidos por los modelos de difusión de imagen-texto para generar imágenes multi-vista de avatares en varios estilos. Durante la generación de datos, empleamos poses extraídas de modelos 3D existentes para guiar la generación de imágenes multi-vista. Para abordar la desalineación entre poses e imágenes en los datos, investigamos indicaciones específicas de vista y desarrollamos un discriminador de entrenamiento GAN de grueso a fino. También profundizamos en indicaciones relacionadas con atributos para aumentar la diversidad de los avatares generados. Además, desarrollamos un modelo de difusión latente dentro del espacio de estilo de StyleGAN para permitir la generación de avatares basados en entradas de imagen. Nuestro enfoque demuestra un rendimiento superior sobre los métodos actuales más avanzados en términos de calidad visual y diversidad de los avatares producidos.
English
The recent advancements in image-text diffusion models have stimulated research interest in large-scale 3D generative models. Nevertheless, the limited availability of diverse 3D resources presents significant challenges to learning. In this paper, we present a novel method for generating high-quality, stylized 3D avatars that utilizes pre-trained image-text diffusion models for data generation and a Generative Adversarial Network (GAN)-based 3D generation network for training. Our method leverages the comprehensive priors of appearance and geometry offered by image-text diffusion models to generate multi-view images of avatars in various styles. During data generation, we employ poses extracted from existing 3D models to guide the generation of multi-view images. To address the misalignment between poses and images in data, we investigate view-specific prompts and develop a coarse-to-fine discriminator for GAN training. We also delve into attribute-related prompts to increase the diversity of the generated avatars. Additionally, we develop a latent diffusion model within the style space of StyleGAN to enable the generation of avatars based on image inputs. Our approach demonstrates superior performance over current state-of-the-art methods in terms of visual quality and diversity of the produced avatars.
PDF42December 15, 2024