Media2Face : Génération d'animation faciale co-articulée avec guidage multi-modal

papers.abstract

La synthèse d'animations faciales 3D à partir de la parole a suscité une attention considérable. En raison de la rareté des données faciales 4D de haute qualité et des annotations abondantes et précises de labels multimodaux, les méthodes précédentes souffrent souvent d'un réalisme limité et d'un manque de conditionnement flexible. Nous relevons ce défi à travers une trilogie. Nous introduisons d'abord le Generalized Neural Parametric Facial Asset (GNPFA), un auto-encodeur variationnel efficace qui mappe la géométrie faciale et les images vers un espace latent d'expression hautement généralisé, découplant ainsi les expressions et les identités. Ensuite, nous utilisons GNPFA pour extraire des expressions de haute qualité et des poses de tête précises à partir d'un large éventail de vidéos. Cela donne naissance au jeu de données M2F-D, un ensemble de données volumineux, diversifié et de niveau scan pour les animations faciales 3D synchronisées avec la parole, accompagné de labels émotionnels et stylistiques bien annotés. Enfin, nous proposons Media2Face, un modèle de diffusion dans l'espace latent de GNPFA pour la génération d'animations faciales synchronisées avec la parole, acceptant des guidages riches et multimodaux provenant de l'audio, du texte et de l'image. Des expériences approfondies démontrent que notre modèle non seulement atteint une haute fidélité dans la synthèse d'animations faciales, mais élargit également le champ de l'expressivité et de l'adaptabilité stylistique dans les animations faciales 3D.

English

The synthesis of 3D facial animations from speech has garnered considerable attention. Due to the scarcity of high-quality 4D facial data and well-annotated abundant multi-modality labels, previous methods often suffer from limited realism and a lack of lexible conditioning. We address this challenge through a trilogy. We first introduce Generalized Neural Parametric Facial Asset (GNPFA), an efficient variational auto-encoder mapping facial geometry and images to a highly generalized expression latent space, decoupling expressions and identities. Then, we utilize GNPFA to extract high-quality expressions and accurate head poses from a large array of videos. This presents the M2F-D dataset, a large, diverse, and scan-level co-speech 3D facial animation dataset with well-annotated emotional and style labels. Finally, we propose Media2Face, a diffusion model in GNPFA latent space for co-speech facial animation generation, accepting rich multi-modality guidances from audio, text, and image. Extensive experiments demonstrate that our model not only achieves high fidelity in facial animation synthesis but also broadens the scope of expressiveness and style adaptability in 3D facial animation.

Media2Face : Génération d'animation faciale co-articulée avec guidage multi-modal

Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance

papers.abstract

Support