ChatPaper.aiChatPaper

GenCA: 현실적이고 운전 가능한 코덱 아바타를 위한 텍스트 조건 생성 모델

GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars

August 24, 2024
저자: Keqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz
cs.AI

초록

사실적이고 조절 가능한 3D 아바타는 가상 및 혼합 현실 (VR/MR), 원격 참석, 게임 및 영화 제작과 같은 다양한 응용 프로그램에 중요합니다. 아바타 생성을 위한 기존 방법은 각각의 아바타에 대해 시간이 많이 소요되는 스캔 및 재구성 과정을 포함하여 그 확장성을 제한합니다. 더욱이, 이러한 방법은 새로운 정체성을 샘플링하거나 기존 정체성을 수정하는 유연성을 제공하지 않습니다. 반면에, 데이터로부터 강력한 사전을 학습함으로써, 생성 모델은 전통적인 재구성 방법에 대한 유망한 대안을 제공하여 데이터 캡처 및 처리에 대한 시간 제약을 완화합니다. 게다가, 생성 방법은 편집 및 스타일링과 같은 재구성 이상의 하류 응용 프로그램을 가능하게 합니다. 그럼에도 불구하고, 생성적 3D 아바타에 대한 연구는 여전히 초기 단계에 있으며, 따라서 현재 방법은 정적 아바타 생성, 사실적이지 않음, 불완전한 얼굴 세부 사항, 또는 제한된 구동성과 같은 한계를 가지고 있습니다. 이를 해결하기 위해, 우리는 텍스트 조건 생성 모델을 제안합니다. 이 모델은 다양한 정체성의 사실적인 얼굴 아바타를 생성할 수 있으며, 머리, 눈, 입 내부와 같은 더 완전한 세부 사항을 제공하며 강력한 비모수 잠재 표현 공간을 통해 구동할 수 있습니다. 구체적으로, 잠재 확산 모델의 생성 및 편집 능력을 아바타 표현 구동을 위한 강력한 사전 모델과 통합합니다. 우리의 모델은 분포 밖에 있는 아바타를 포함하여 고품질 아바타를 생성하고 제어할 수 있습니다. 또한, 아바타 편집 및 단일 샷 아바타 재구성과 같은 하류 응용 프로그램에 대한 잠재력을 강조합니다.
English
Photo-realistic and controllable 3D avatars are crucial for various applications such as virtual and mixed reality (VR/MR), telepresence, gaming, and film production. Traditional methods for avatar creation often involve time-consuming scanning and reconstruction processes for each avatar, which limits their scalability. Furthermore, these methods do not offer the flexibility to sample new identities or modify existing ones. On the other hand, by learning a strong prior from data, generative models provide a promising alternative to traditional reconstruction methods, easing the time constraints for both data capture and processing. Additionally, generative methods enable downstream applications beyond reconstruction, such as editing and stylization. Nonetheless, the research on generative 3D avatars is still in its infancy, and therefore current methods still have limitations such as creating static avatars, lacking photo-realism, having incomplete facial details, or having limited drivability. To address this, we propose a text-conditioned generative model that can generate photo-realistic facial avatars of diverse identities, with more complete details like hair, eyes and mouth interior, and which can be driven through a powerful non-parametric latent expression space. Specifically, we integrate the generative and editing capabilities of latent diffusion models with a strong prior model for avatar expression driving. Our model can generate and control high-fidelity avatars, even those out-of-distribution. We also highlight its potential for downstream applications, including avatar editing and single-shot avatar reconstruction.

Summary

AI-Generated Summary

PDF183November 16, 2024