GenCA: Um Modelo Generativo Condicionado a Texto para Avatares de Código Realistas e Dirigíveis
GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars
August 24, 2024
Autores: Keqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz
cs.AI
Resumo
Avatares 3D fotorrealistas e controláveis são cruciais para diversas aplicações, como realidade virtual e mista (RV/RM), telepresença, jogos e produção cinematográfica. Os métodos tradicionais de criação de avatares frequentemente envolvem processos demorados de digitalização e reconstrução para cada avatar, o que limita sua escalabilidade. Além disso, esses métodos não oferecem a flexibilidade de amostrar novas identidades ou modificar as existentes. Por outro lado, ao aprender uma forte priori a partir de dados, os modelos generativos fornecem uma alternativa promissora aos métodos tradicionais de reconstrução, facilitando as restrições de tempo tanto para a captura quanto para o processamento de dados. Adicionalmente, os métodos generativos possibilitam aplicações posteriores além da reconstrução, como edição e estilização. No entanto, a pesquisa sobre avatares 3D generativos ainda está em seus estágios iniciais, e, portanto, os métodos atuais ainda possuem limitações, como a criação de avatares estáticos, falta de fotorrealismo, detalhes faciais incompletos ou dirigibilidade limitada. Para lidar com isso, propomos um modelo generativo condicionado a texto que pode gerar avatares faciais fotorrealistas de identidades diversas, com detalhes mais completos como cabelo, olhos e interior da boca, e que podem ser controlados por meio de um espaço de expressão latente não paramétrico poderoso. Especificamente, integramos as capacidades generativas e de edição de modelos de difusão latente com um forte modelo priori para condução da expressão do avatar. Nosso modelo pode gerar e controlar avatares de alta fidelidade, mesmo aqueles fora da distribuição. Também destacamos seu potencial para aplicações posteriores, incluindo edição de avatares e reconstrução de avatares em uma única tentativa.
English
Photo-realistic and controllable 3D avatars are crucial for various
applications such as virtual and mixed reality (VR/MR), telepresence, gaming,
and film production. Traditional methods for avatar creation often involve
time-consuming scanning and reconstruction processes for each avatar, which
limits their scalability. Furthermore, these methods do not offer the
flexibility to sample new identities or modify existing ones. On the other
hand, by learning a strong prior from data, generative models provide a
promising alternative to traditional reconstruction methods, easing the time
constraints for both data capture and processing. Additionally, generative
methods enable downstream applications beyond reconstruction, such as editing
and stylization. Nonetheless, the research on generative 3D avatars is still in
its infancy, and therefore current methods still have limitations such as
creating static avatars, lacking photo-realism, having incomplete facial
details, or having limited drivability. To address this, we propose a
text-conditioned generative model that can generate photo-realistic facial
avatars of diverse identities, with more complete details like hair, eyes and
mouth interior, and which can be driven through a powerful non-parametric
latent expression space. Specifically, we integrate the generative and editing
capabilities of latent diffusion models with a strong prior model for avatar
expression driving.
Our model can generate and control high-fidelity avatars, even those
out-of-distribution. We also highlight its potential for downstream
applications, including avatar editing and single-shot avatar reconstruction.Summary
AI-Generated Summary