Media2Face : Génération d'animation faciale co-articulée avec guidage multi-modal
Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance
January 28, 2024
Auteurs: Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang, Longwen Zhang, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI
Résumé
La synthèse d'animations faciales 3D à partir de la parole a suscité une attention considérable. En raison de la rareté des données faciales 4D de haute qualité et des annotations abondantes et précises de labels multimodaux, les méthodes précédentes souffrent souvent d'un réalisme limité et d'un manque de conditionnement flexible. Nous relevons ce défi à travers une trilogie. Nous introduisons d'abord le Generalized Neural Parametric Facial Asset (GNPFA), un auto-encodeur variationnel efficace qui mappe la géométrie faciale et les images vers un espace latent d'expression hautement généralisé, découplant ainsi les expressions et les identités. Ensuite, nous utilisons GNPFA pour extraire des expressions de haute qualité et des poses de tête précises à partir d'un large éventail de vidéos. Cela donne naissance au jeu de données M2F-D, un ensemble de données volumineux, diversifié et de niveau scan pour les animations faciales 3D synchronisées avec la parole, accompagné de labels émotionnels et stylistiques bien annotés. Enfin, nous proposons Media2Face, un modèle de diffusion dans l'espace latent de GNPFA pour la génération d'animations faciales synchronisées avec la parole, acceptant des guidages riches et multimodaux provenant de l'audio, du texte et de l'image. Des expériences approfondies démontrent que notre modèle non seulement atteint une haute fidélité dans la synthèse d'animations faciales, mais élargit également le champ de l'expressivité et de l'adaptabilité stylistique dans les animations faciales 3D.
English
The synthesis of 3D facial animations from speech has garnered considerable
attention. Due to the scarcity of high-quality 4D facial data and
well-annotated abundant multi-modality labels, previous methods often suffer
from limited realism and a lack of lexible conditioning. We address this
challenge through a trilogy. We first introduce Generalized Neural Parametric
Facial Asset (GNPFA), an efficient variational auto-encoder mapping facial
geometry and images to a highly generalized expression latent space, decoupling
expressions and identities. Then, we utilize GNPFA to extract high-quality
expressions and accurate head poses from a large array of videos. This presents
the M2F-D dataset, a large, diverse, and scan-level co-speech 3D facial
animation dataset with well-annotated emotional and style labels. Finally, we
propose Media2Face, a diffusion model in GNPFA latent space for co-speech
facial animation generation, accepting rich multi-modality guidances from
audio, text, and image. Extensive experiments demonstrate that our model not
only achieves high fidelity in facial animation synthesis but also broadens the
scope of expressiveness and style adaptability in 3D facial animation.