Media2Face: Generazione di Animazioni Facciali Co-verbali con Guida Multi-Modale
Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance
January 28, 2024
Autori: Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang, Longwen Zhang, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI
Abstract
La sintesi di animazioni facciali 3D a partire dal parlato ha attirato notevole attenzione. A causa della scarsità di dati facciali 4D di alta qualità e di etichette multimodali abbondanti e ben annotate, i metodi precedenti spesso soffrono di un realismo limitato e di una mancanza di condizionamento flessibile. Affrontiamo questa sfida attraverso una trilogia. In primo luogo, introduciamo il Generalized Neural Parametric Facial Asset (GNPFA), un efficiente autoencoder variazionale che mappa la geometria facciale e le immagini in uno spazio latente delle espressioni altamente generalizzato, disaccoppiando espressioni e identità. Successivamente, utilizziamo GNPFA per estrarre espressioni di alta qualità e pose della testa accurate da una vasta gamma di video. Questo presenta il dataset M2F-D, un ampio, diversificato e di livello scan dataset di animazioni facciali 3D co-verbali con etichette emotive e di stile ben annotate. Infine, proponiamo Media2Face, un modello di diffusione nello spazio latente GNPFA per la generazione di animazioni facciali co-verbali, che accetta ricche guide multimodali da audio, testo e immagine. Esperimenti estensivi dimostrano che il nostro modello non solo raggiunge un'elevata fedeltà nella sintesi di animazioni facciali, ma amplia anche la gamma di espressività e adattabilità stilistica nelle animazioni facciali 3D.
English
The synthesis of 3D facial animations from speech has garnered considerable
attention. Due to the scarcity of high-quality 4D facial data and
well-annotated abundant multi-modality labels, previous methods often suffer
from limited realism and a lack of lexible conditioning. We address this
challenge through a trilogy. We first introduce Generalized Neural Parametric
Facial Asset (GNPFA), an efficient variational auto-encoder mapping facial
geometry and images to a highly generalized expression latent space, decoupling
expressions and identities. Then, we utilize GNPFA to extract high-quality
expressions and accurate head poses from a large array of videos. This presents
the M2F-D dataset, a large, diverse, and scan-level co-speech 3D facial
animation dataset with well-annotated emotional and style labels. Finally, we
propose Media2Face, a diffusion model in GNPFA latent space for co-speech
facial animation generation, accepting rich multi-modality guidances from
audio, text, and image. Extensive experiments demonstrate that our model not
only achieves high fidelity in facial animation synthesis but also broadens the
scope of expressiveness and style adaptability in 3D facial animation.