GenCA: Ein textkonditioniertes generatives Modell für realistische und fahrbare Codec-Avatare.
GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars
August 24, 2024
Autoren: Keqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz
cs.AI
Zusammenfassung
Foto-realistische und steuerbare 3D-Avatare sind entscheidend für verschiedene Anwendungen wie virtuelle und gemischte Realität (VR/MR), Telepräsenz, Gaming und Filmproduktion. Traditionelle Methoden zur Avatar-Erstellung beinhalten oft zeitaufwändige Scan- und Rekonstruktionsprozesse für jeden Avatar, was ihre Skalierbarkeit einschränkt. Darüber hinaus bieten diese Methoden nicht die Flexibilität, neue Identitäten zu generieren oder bestehende zu modifizieren. Andererseits bieten generative Modelle durch das Erlernen einer starken Priori aus Daten eine vielversprechende Alternative zu traditionellen Rekonstruktionsmethoden, was die zeitlichen Einschränkungen sowohl bei der Datenerfassung als auch bei der Verarbeitung erleichtert. Darüber hinaus ermöglichen generative Methoden Anwendungen über die Rekonstruktion hinaus, wie Bearbeitung und Stilisierung. Dennoch steckt die Forschung zu generativen 3D-Avataren noch in den Kinderschuhen, und daher haben aktuelle Methoden noch Einschränkungen wie die Erstellung statischer Avatare, mangelnde Foto-Realismus, unvollständige Gesichtsdetails oder begrenzte Steuerbarkeit. Um dies zu lösen, schlagen wir ein textkonditioniertes generatives Modell vor, das foto-realistische Gesichtsavatare verschiedener Identitäten generieren kann, mit vollständigeren Details wie Haaren, Augen und Mundinnerem, und die durch einen leistungsstarken nicht-parametrischen latenten Ausdrucksraum gesteuert werden können. Speziell integrieren wir die generativen und Bearbeitungsfähigkeiten von latenten Diffusionsmodellen mit einem starken Priori-Modell für die Steuerung des Avatar-Ausdrucks. Unser Modell kann hochwertige Avatare generieren und steuern, selbst solche außerhalb der Verteilung. Wir heben auch sein Potenzial für Anwendungen hervor, einschließlich Avatar-Bearbeitung und Einzelbild-Avatar-Rekonstruktion.
English
Photo-realistic and controllable 3D avatars are crucial for various
applications such as virtual and mixed reality (VR/MR), telepresence, gaming,
and film production. Traditional methods for avatar creation often involve
time-consuming scanning and reconstruction processes for each avatar, which
limits their scalability. Furthermore, these methods do not offer the
flexibility to sample new identities or modify existing ones. On the other
hand, by learning a strong prior from data, generative models provide a
promising alternative to traditional reconstruction methods, easing the time
constraints for both data capture and processing. Additionally, generative
methods enable downstream applications beyond reconstruction, such as editing
and stylization. Nonetheless, the research on generative 3D avatars is still in
its infancy, and therefore current methods still have limitations such as
creating static avatars, lacking photo-realism, having incomplete facial
details, or having limited drivability. To address this, we propose a
text-conditioned generative model that can generate photo-realistic facial
avatars of diverse identities, with more complete details like hair, eyes and
mouth interior, and which can be driven through a powerful non-parametric
latent expression space. Specifically, we integrate the generative and editing
capabilities of latent diffusion models with a strong prior model for avatar
expression driving.
Our model can generate and control high-fidelity avatars, even those
out-of-distribution. We also highlight its potential for downstream
applications, including avatar editing and single-shot avatar reconstruction.Summary
AI-Generated Summary