GenCA: Een tekstgeconditioneerd generatief model voor realistische en bestuurbare Codec Avatars
GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars
August 24, 2024
Auteurs: Keqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz
cs.AI
Samenvatting
Foto-realistische en bestuurbare 3D-avatars zijn cruciaal voor diverse toepassingen zoals virtuele en gemengde realiteit (VR/MR), telepresence, gaming en filmproductie. Traditionele methoden voor het creëren van avatars omvatten vaak tijdrovende scan- en reconstructieprocessen voor elke avatar, wat hun schaalbaarheid beperkt. Bovendien bieden deze methoden niet de flexibiliteit om nieuwe identiteiten te genereren of bestaande te wijzigen. Aan de andere kant bieden generatieve modellen, door een sterke prior uit data te leren, een veelbelovend alternatief voor traditionele reconstructiemethoden, waardoor de tijdsdruk voor zowel data-acquisitie als -verwerking wordt verlicht. Daarnaast maken generatieve methoden downstream-toepassingen mogelijk die verder gaan dan reconstructie, zoals bewerking en stilisering. Desalniettemin staat het onderzoek naar generatieve 3D-avatars nog in de kinderschoenen, en hebben huidige methoden daarom nog beperkingen, zoals het creëren van statische avatars, een gebrek aan foto-realisme, onvolledige gezichtsdetails of beperkte bestuurbaarheid. Om dit aan te pakken, stellen we een tekst-geconditioneerd generatief model voor dat foto-realistische gezichtsavatars van diverse identiteiten kan genereren, met meer complete details zoals haar, ogen en de binnenkant van de mond, en dat bestuurd kan worden via een krachtige niet-parametrische latente expressieruimte. Specifiek integreren we de generatieve en bewerkingsmogelijkheden van latente diffusiemodellen met een sterk prior-model voor het besturen van avatar-expressies.
Ons model kan hoogwaardige avatars genereren en besturen, zelfs die buiten de distributie vallen. We benadrukken ook het potentieel voor downstream-toepassingen, waaronder avatar-bewerking en single-shot avatar-reconstructie.
English
Photo-realistic and controllable 3D avatars are crucial for various
applications such as virtual and mixed reality (VR/MR), telepresence, gaming,
and film production. Traditional methods for avatar creation often involve
time-consuming scanning and reconstruction processes for each avatar, which
limits their scalability. Furthermore, these methods do not offer the
flexibility to sample new identities or modify existing ones. On the other
hand, by learning a strong prior from data, generative models provide a
promising alternative to traditional reconstruction methods, easing the time
constraints for both data capture and processing. Additionally, generative
methods enable downstream applications beyond reconstruction, such as editing
and stylization. Nonetheless, the research on generative 3D avatars is still in
its infancy, and therefore current methods still have limitations such as
creating static avatars, lacking photo-realism, having incomplete facial
details, or having limited drivability. To address this, we propose a
text-conditioned generative model that can generate photo-realistic facial
avatars of diverse identities, with more complete details like hair, eyes and
mouth interior, and which can be driven through a powerful non-parametric
latent expression space. Specifically, we integrate the generative and editing
capabilities of latent diffusion models with a strong prior model for avatar
expression driving.
Our model can generate and control high-fidelity avatars, even those
out-of-distribution. We also highlight its potential for downstream
applications, including avatar editing and single-shot avatar reconstruction.Summary
AI-Generated Summary