ChatPaper.aiChatPaper

Media2Face: Generierung von Co-Speech-Gesichtsanimationen mit Multi-Modalitätssteuerung

Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance

January 28, 2024
Autoren: Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang, Longwen Zhang, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI

Zusammenfassung

Die Synthese von 3D-Gesichtsanimationen aus Sprache hat erhebliche Aufmerksamkeit erregt. Aufgrund der Knappheit von hochwertigen 4D-Gesichtsdaten und gut annotierten, umfangreichen Multimodalitäts-Labels leiden frühere Methoden oft unter begrenztem Realismus und einem Mangel an flexibler Konditionierung. Wir gehen diese Herausforderung durch eine Trilogie an. Zunächst führen wir das Generalized Neural Parametric Facial Asset (GNPFA) ein, einen effizienten Variations-Autoencoder, der Gesichtsgeometrie und Bilder in einen hochgradig generalisierten Ausdrucks-Latentraum abbildet und dabei Ausdrücke und Identitäten entkoppelt. Anschließend nutzen wir GNPFA, um hochwertige Ausdrücke und präzise Kopfposen aus einer Vielzahl von Videos zu extrahieren. Dies führt zum M2F-D-Datensatz, einem großen, vielfältigen und scanbasierten Co-Speech-3D-Gesichtsanimationsdatensatz mit gut annotierten emotionalen und Stil-Labels. Schließlich schlagen wir Media2Face vor, ein Diffusionsmodell im GNPFA-Latentraum für die Co-Speech-Gesichtsanimationsgenerierung, das reiche Multimodalitäts-Anleitungen aus Audio, Text und Bild akzeptiert. Umfangreiche Experimente zeigen, dass unser Modell nicht nur eine hohe Wiedergabetreue in der Gesichtsanimation erreicht, sondern auch den Umfang der Ausdrucksfähigkeit und Stilanpassungsfähigkeit in der 3D-Gesichtsanimation erweitert.
English
The synthesis of 3D facial animations from speech has garnered considerable attention. Due to the scarcity of high-quality 4D facial data and well-annotated abundant multi-modality labels, previous methods often suffer from limited realism and a lack of lexible conditioning. We address this challenge through a trilogy. We first introduce Generalized Neural Parametric Facial Asset (GNPFA), an efficient variational auto-encoder mapping facial geometry and images to a highly generalized expression latent space, decoupling expressions and identities. Then, we utilize GNPFA to extract high-quality expressions and accurate head poses from a large array of videos. This presents the M2F-D dataset, a large, diverse, and scan-level co-speech 3D facial animation dataset with well-annotated emotional and style labels. Finally, we propose Media2Face, a diffusion model in GNPFA latent space for co-speech facial animation generation, accepting rich multi-modality guidances from audio, text, and image. Extensive experiments demonstrate that our model not only achieves high fidelity in facial animation synthesis but also broadens the scope of expressiveness and style adaptability in 3D facial animation.
PDF254December 15, 2024