ChatPaper.aiChatPaper

StyleAvatar3D: 이미지-텍스트 확산 모델을 활용한 고해상도 3D 아바타 생성

StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation

May 30, 2023
저자: Chi Zhang, Yiwen Chen, Yijun Fu, Zhenglin Zhou, Gang YU, Billzb Wang, Bin Fu, Tao Chen, Guosheng Lin, Chunhua Shen
cs.AI

초록

최근 이미지-텍스트 확산 모델의 발전은 대규모 3D 생성 모델에 대한 연구 관심을 촉발시켰습니다. 그러나 다양한 3D 자원의 제한된 가용성은 학습에 있어 상당한 어려움을 제기합니다. 본 논문에서는 데이터 생성을 위해 사전 학습된 이미지-텍스트 확산 모델을 활용하고, 학습을 위해 GAN(Generative Adversarial Network) 기반의 3D 생성 네트워크를 사용하여 고품질의 스타일화된 3D 아바타를 생성하는 새로운 방법을 제시합니다. 우리의 방법은 이미지-텍스트 확산 모델이 제공하는 외관과 기하학적 특성에 대한 포괄적인 사전 정보를 활용하여 다양한 스타일의 아바타에 대한 다중 뷰 이미지를 생성합니다. 데이터 생성 과정에서는 기존 3D 모델에서 추출한 포즈를 사용하여 다중 뷰 이미지 생성을 안내합니다. 데이터에서 포즈와 이미지 간의 불일치 문제를 해결하기 위해, 뷰별 프롬프트를 조사하고 GAN 학습을 위한 coarse-to-fine 판별기를 개발합니다. 또한, 생성된 아바타의 다양성을 높이기 위해 속성 관련 프롬프트를 탐구합니다. 추가적으로, StyleGAN의 스타일 공간 내에서 잠재 확산 모델을 개발하여 이미지 입력을 기반으로 아바타를 생성할 수 있도록 합니다. 우리의 접근 방식은 생성된 아바타의 시각적 품질과 다양성 측면에서 현재 최첨단 방법들을 능가하는 성능을 보여줍니다.
English
The recent advancements in image-text diffusion models have stimulated research interest in large-scale 3D generative models. Nevertheless, the limited availability of diverse 3D resources presents significant challenges to learning. In this paper, we present a novel method for generating high-quality, stylized 3D avatars that utilizes pre-trained image-text diffusion models for data generation and a Generative Adversarial Network (GAN)-based 3D generation network for training. Our method leverages the comprehensive priors of appearance and geometry offered by image-text diffusion models to generate multi-view images of avatars in various styles. During data generation, we employ poses extracted from existing 3D models to guide the generation of multi-view images. To address the misalignment between poses and images in data, we investigate view-specific prompts and develop a coarse-to-fine discriminator for GAN training. We also delve into attribute-related prompts to increase the diversity of the generated avatars. Additionally, we develop a latent diffusion model within the style space of StyleGAN to enable the generation of avatars based on image inputs. Our approach demonstrates superior performance over current state-of-the-art methods in terms of visual quality and diversity of the produced avatars.
PDF42December 15, 2024