GenCA : Un modèle génératif conditionné par le texte pour des avatars de codec réalistes et conduisables.
GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars
August 24, 2024
Auteurs: Keqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz
cs.AI
Résumé
Les avatars 3D photoréalistes et contrôlables sont essentiels pour diverses applications telles que la réalité virtuelle et mixte (RV/RM), la téléprésence, les jeux vidéo et la production cinématographique. Les méthodes traditionnelles de création d'avatars impliquent souvent des processus de numérisation et de reconstruction fastidieux pour chaque avatar, ce qui limite leur extensibilité. De plus, ces méthodes ne permettent pas d'échantillonner de nouvelles identités ou de modifier celles existantes. En revanche, en apprenant un fort a priori à partir des données, les modèles génératifs offrent une alternative prometteuse aux méthodes de reconstruction traditionnelles, facilitant les contraintes de temps à la fois pour la capture et le traitement des données. De plus, les méthodes génératives permettent des applications ultérieures au-delà de la reconstruction, telles que l'édition et la stylisation. Néanmoins, la recherche sur les avatars 3D génératifs en est encore à ses débuts, et donc les méthodes actuelles présentent encore des limitations telles que la création d'avatars statiques, le manque de réalisme photographique, des détails faciaux incomplets ou une conduite limitée. Pour remédier à cela, nous proposons un modèle génératif conditionné par texte qui peut générer des avatars faciaux photoréalistes de diverses identités, avec des détails plus complets comme les cheveux, les yeux et l'intérieur de la bouche, et qui peuvent être pilotés à travers un puissant espace d'expression latente non paramétrique. Plus précisément, nous intégrons les capacités génératives et d'édition des modèles de diffusion latente avec un modèle a priori fort pour la conduite de l'expression de l'avatar. Notre modèle peut générer et contrôler des avatars haute fidélité, même ceux hors distribution. Nous soulignons également son potentiel pour des applications ultérieures, y compris l'édition d'avatars et la reconstruction d'avatars en un seul coup.
English
Photo-realistic and controllable 3D avatars are crucial for various
applications such as virtual and mixed reality (VR/MR), telepresence, gaming,
and film production. Traditional methods for avatar creation often involve
time-consuming scanning and reconstruction processes for each avatar, which
limits their scalability. Furthermore, these methods do not offer the
flexibility to sample new identities or modify existing ones. On the other
hand, by learning a strong prior from data, generative models provide a
promising alternative to traditional reconstruction methods, easing the time
constraints for both data capture and processing. Additionally, generative
methods enable downstream applications beyond reconstruction, such as editing
and stylization. Nonetheless, the research on generative 3D avatars is still in
its infancy, and therefore current methods still have limitations such as
creating static avatars, lacking photo-realism, having incomplete facial
details, or having limited drivability. To address this, we propose a
text-conditioned generative model that can generate photo-realistic facial
avatars of diverse identities, with more complete details like hair, eyes and
mouth interior, and which can be driven through a powerful non-parametric
latent expression space. Specifically, we integrate the generative and editing
capabilities of latent diffusion models with a strong prior model for avatar
expression driving.
Our model can generate and control high-fidelity avatars, even those
out-of-distribution. We also highlight its potential for downstream
applications, including avatar editing and single-shot avatar reconstruction.Summary
AI-Generated Summary