GenCA: Un modello generativo condizionato al testo per avatar di codec realistici e guidabili
GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars
August 24, 2024
Autori: Keqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz
cs.AI
Abstract
Avatar 3D fotorealistici e controllabili sono cruciali per varie applicazioni come realtà virtuale e mista (VR/MR), telepresenza, videogiochi e produzione cinematografica. I metodi tradizionali per la creazione degli avatar coinvolgono spesso processi di scansione e ricostruzione che richiedono molto tempo per ciascun avatar, limitandone la scalabilità. Inoltre, tali metodi non offrono la flessibilità di campionare nuove identità o modificare quelle esistenti. D'altra parte, apprendendo una forte conoscenza preliminare dai dati, i modelli generativi offrono un'alternativa promettente ai metodi tradizionali di ricostruzione, facilitando i vincoli temporali sia per la cattura che per l'elaborazione dei dati. Inoltre, i metodi generativi consentono applicazioni successive oltre alla ricostruzione, come l'editing e la stilizzazione. Tuttavia, la ricerca sugli avatar 3D generativi è ancora agli inizi e pertanto i metodi attuali presentano ancora limitazioni come la creazione di avatar statici, la mancanza di fotorealismo, dettagli facciali incompleti o una limitata guidabilità. Per affrontare ciò, proponiamo un modello generativo condizionato al testo che può generare avatar facciali fotorealistici di identità diverse, con dettagli più completi come capelli, occhi e interni della bocca, e che possono essere guidati attraverso uno spazio di espressione latente non parametrico potente. In particolare, integriamo le capacità generative e di editing dei modelli di diffusione latente con un forte modello preliminare per la guida dell'espressione dell'avatar. Il nostro modello può generare e controllare avatar ad alta fedeltà, anche quelli fuori distribuzione. Evidenziamo inoltre il suo potenziale per applicazioni successive, tra cui l'editing degli avatar e la ricostruzione degli avatar in un'unica ripresa.
English
Photo-realistic and controllable 3D avatars are crucial for various
applications such as virtual and mixed reality (VR/MR), telepresence, gaming,
and film production. Traditional methods for avatar creation often involve
time-consuming scanning and reconstruction processes for each avatar, which
limits their scalability. Furthermore, these methods do not offer the
flexibility to sample new identities or modify existing ones. On the other
hand, by learning a strong prior from data, generative models provide a
promising alternative to traditional reconstruction methods, easing the time
constraints for both data capture and processing. Additionally, generative
methods enable downstream applications beyond reconstruction, such as editing
and stylization. Nonetheless, the research on generative 3D avatars is still in
its infancy, and therefore current methods still have limitations such as
creating static avatars, lacking photo-realism, having incomplete facial
details, or having limited drivability. To address this, we propose a
text-conditioned generative model that can generate photo-realistic facial
avatars of diverse identities, with more complete details like hair, eyes and
mouth interior, and which can be driven through a powerful non-parametric
latent expression space. Specifically, we integrate the generative and editing
capabilities of latent diffusion models with a strong prior model for avatar
expression driving.
Our model can generate and control high-fidelity avatars, even those
out-of-distribution. We also highlight its potential for downstream
applications, including avatar editing and single-shot avatar reconstruction.