Media2Face: Co-speech Facial Animatie Generatie met Multi-Modaliteit Begeleiding
Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance
January 28, 2024
Auteurs: Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang, Longwen Zhang, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI
Samenvatting
De synthese van 3D-gezichtsanimaties vanuit spraak heeft aanzienlijke aandacht gekregen. Door het gebrek aan hoogwaardige 4D-gezichtsgegevens en goed geannoteerde, overvloedige multimodale labels, lijden eerdere methoden vaak aan beperkte realisme en een gebrek aan flexibele conditionering. Wij pakken deze uitdaging aan via een trilogie. We introduceren eerst Generalized Neural Parametric Facial Asset (GNPFA), een efficiënte variational auto-encoder die gezichtsgeometrie en afbeeldingen afbeeldt op een sterk gegeneraliseerde expressie-latente ruimte, waarbij expressies en identiteiten worden ontkoppeld. Vervolgens gebruiken we GNPFA om hoogwaardige expressies en nauwkeurige hoofdposities te extraheren uit een grote reeks video's. Dit resulteert in de M2F-D dataset, een grote, diverse en scan-niveau co-speech 3D-gezichtsanimatiedataset met goed geannoteerde emotionele en stijllabels. Ten slotte stellen we Media2Face voor, een diffusiemodel in de GNPFA-latente ruimte voor de generatie van co-speech gezichtsanimatie, dat rijke multimodale begeleiding accepteert vanuit audio, tekst en afbeeldingen. Uitgebreide experimenten tonen aan dat ons model niet alleen een hoge trouw bereikt in gezichtsanimatiesynthese, maar ook het bereik van expressiviteit en stijlaanpassingsvermogen in 3D-gezichtsanimatie verbreedt.
English
The synthesis of 3D facial animations from speech has garnered considerable
attention. Due to the scarcity of high-quality 4D facial data and
well-annotated abundant multi-modality labels, previous methods often suffer
from limited realism and a lack of lexible conditioning. We address this
challenge through a trilogy. We first introduce Generalized Neural Parametric
Facial Asset (GNPFA), an efficient variational auto-encoder mapping facial
geometry and images to a highly generalized expression latent space, decoupling
expressions and identities. Then, we utilize GNPFA to extract high-quality
expressions and accurate head poses from a large array of videos. This presents
the M2F-D dataset, a large, diverse, and scan-level co-speech 3D facial
animation dataset with well-annotated emotional and style labels. Finally, we
propose Media2Face, a diffusion model in GNPFA latent space for co-speech
facial animation generation, accepting rich multi-modality guidances from
audio, text, and image. Extensive experiments demonstrate that our model not
only achieves high fidelity in facial animation synthesis but also broadens the
scope of expressiveness and style adaptability in 3D facial animation.