GenCA: Ein textkonditioniertes generatives Modell für realistische und fahrbare Codec-Avatare.

papers.abstract

Foto-realistische und steuerbare 3D-Avatare sind entscheidend für verschiedene Anwendungen wie virtuelle und gemischte Realität (VR/MR), Telepräsenz, Gaming und Filmproduktion. Traditionelle Methoden zur Avatar-Erstellung beinhalten oft zeitaufwändige Scan- und Rekonstruktionsprozesse für jeden Avatar, was ihre Skalierbarkeit einschränkt. Darüber hinaus bieten diese Methoden nicht die Flexibilität, neue Identitäten zu generieren oder bestehende zu modifizieren. Andererseits bieten generative Modelle durch das Erlernen einer starken Priori aus Daten eine vielversprechende Alternative zu traditionellen Rekonstruktionsmethoden, was die zeitlichen Einschränkungen sowohl bei der Datenerfassung als auch bei der Verarbeitung erleichtert. Darüber hinaus ermöglichen generative Methoden Anwendungen über die Rekonstruktion hinaus, wie Bearbeitung und Stilisierung. Dennoch steckt die Forschung zu generativen 3D-Avataren noch in den Kinderschuhen, und daher haben aktuelle Methoden noch Einschränkungen wie die Erstellung statischer Avatare, mangelnde Foto-Realismus, unvollständige Gesichtsdetails oder begrenzte Steuerbarkeit. Um dies zu lösen, schlagen wir ein textkonditioniertes generatives Modell vor, das foto-realistische Gesichtsavatare verschiedener Identitäten generieren kann, mit vollständigeren Details wie Haaren, Augen und Mundinnerem, und die durch einen leistungsstarken nicht-parametrischen latenten Ausdrucksraum gesteuert werden können. Speziell integrieren wir die generativen und Bearbeitungsfähigkeiten von latenten Diffusionsmodellen mit einem starken Priori-Modell für die Steuerung des Avatar-Ausdrucks. Unser Modell kann hochwertige Avatare generieren und steuern, selbst solche außerhalb der Verteilung. Wir heben auch sein Potenzial für Anwendungen hervor, einschließlich Avatar-Bearbeitung und Einzelbild-Avatar-Rekonstruktion.

English

Photo-realistic and controllable 3D avatars are crucial for various applications such as virtual and mixed reality (VR/MR), telepresence, gaming, and film production. Traditional methods for avatar creation often involve time-consuming scanning and reconstruction processes for each avatar, which limits their scalability. Furthermore, these methods do not offer the flexibility to sample new identities or modify existing ones. On the other hand, by learning a strong prior from data, generative models provide a promising alternative to traditional reconstruction methods, easing the time constraints for both data capture and processing. Additionally, generative methods enable downstream applications beyond reconstruction, such as editing and stylization. Nonetheless, the research on generative 3D avatars is still in its infancy, and therefore current methods still have limitations such as creating static avatars, lacking photo-realism, having incomplete facial details, or having limited drivability. To address this, we propose a text-conditioned generative model that can generate photo-realistic facial avatars of diverse identities, with more complete details like hair, eyes and mouth interior, and which can be driven through a powerful non-parametric latent expression space. Specifically, we integrate the generative and editing capabilities of latent diffusion models with a strong prior model for avatar expression driving. Our model can generate and control high-fidelity avatars, even those out-of-distribution. We also highlight its potential for downstream applications, including avatar editing and single-shot avatar reconstruction.

GenCA: Ein textkonditioniertes generatives Modell für realistische und fahrbare Codec-Avatare.

GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars

papers.abstract

Support