GenCA: Un modelo generativo condicionado por texto para avatares de códec realistas y conducibles.
GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars
August 24, 2024
Autores: Keqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz
cs.AI
Resumen
Los avatares en 3D fotorrealistas y controlables son cruciales para diversas aplicaciones como la realidad virtual y mixta (RV/RM), la telepresencia, los videojuegos y la producción cinematográfica. Los métodos tradicionales para la creación de avatares a menudo implican procesos de escaneo y reconstrucción que consumen mucho tiempo para cada avatar, lo que limita su escalabilidad. Además, estos métodos no ofrecen la flexibilidad para muestrear nuevas identidades o modificar las existentes. Por otro lado, al aprender una fuerte prioridad a partir de datos, los modelos generativos ofrecen una alternativa prometedora a los métodos tradicionales de reconstrucción, aliviando las restricciones de tiempo tanto para la captura de datos como para el procesamiento. Además, los métodos generativos permiten aplicaciones posteriores más allá de la reconstrucción, como la edición y la estilización. Sin embargo, la investigación sobre avatares generativos en 3D todavía está en sus inicios, por lo que los métodos actuales todavía tienen limitaciones como la creación de avatares estáticos, la falta de fotorrealismo, detalles faciales incompletos o una capacidad de control limitada. Para abordar esto, proponemos un modelo generativo condicionado por texto que puede generar avatares faciales fotorrealistas de identidades diversas, con detalles más completos como cabello, ojos e interior de la boca, y que pueden ser controlados a través de un potente espacio de expresión latente no paramétrico. Específicamente, integramos las capacidades generativas y de edición de modelos de difusión latente con un modelo prior fuerte para el control de la expresión del avatar.
Nuestro modelo puede generar y controlar avatares de alta fidelidad, incluso aquellos fuera de la distribución. También destacamos su potencial para aplicaciones posteriores, incluida la edición de avatares y la reconstrucción de avatares en una sola toma.
English
Photo-realistic and controllable 3D avatars are crucial for various
applications such as virtual and mixed reality (VR/MR), telepresence, gaming,
and film production. Traditional methods for avatar creation often involve
time-consuming scanning and reconstruction processes for each avatar, which
limits their scalability. Furthermore, these methods do not offer the
flexibility to sample new identities or modify existing ones. On the other
hand, by learning a strong prior from data, generative models provide a
promising alternative to traditional reconstruction methods, easing the time
constraints for both data capture and processing. Additionally, generative
methods enable downstream applications beyond reconstruction, such as editing
and stylization. Nonetheless, the research on generative 3D avatars is still in
its infancy, and therefore current methods still have limitations such as
creating static avatars, lacking photo-realism, having incomplete facial
details, or having limited drivability. To address this, we propose a
text-conditioned generative model that can generate photo-realistic facial
avatars of diverse identities, with more complete details like hair, eyes and
mouth interior, and which can be driven through a powerful non-parametric
latent expression space. Specifically, we integrate the generative and editing
capabilities of latent diffusion models with a strong prior model for avatar
expression driving.
Our model can generate and control high-fidelity avatars, even those
out-of-distribution. We also highlight its potential for downstream
applications, including avatar editing and single-shot avatar reconstruction.Summary
AI-Generated Summary