Media2Face: Generación de animación facial en cohabla con guía multimodal
Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance
January 28, 2024
Autores: Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang, Longwen Zhang, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI
Resumen
La síntesis de animaciones faciales 3D a partir del habla ha captado una atención considerable. Debido a la escasez de datos faciales 4D de alta calidad y etiquetas multimodales abundantes y bien anotadas, los métodos anteriores a menudo sufren de un realismo limitado y una falta de condicionamiento flexible. Abordamos este desafío a través de una trilogía. Primero, presentamos Generalized Neural Parametric Facial Asset (GNPFA), un codificador automático variacional eficiente que mapea la geometría facial y las imágenes a un espacio latente de expresiones altamente generalizado, desacoplando expresiones e identidades. Luego, utilizamos GNPFA para extraer expresiones de alta calidad y poses precisas de la cabeza a partir de una gran variedad de videos. Esto da lugar al conjunto de datos M2F-D, un conjunto de datos grande, diverso y de nivel de escaneo para animaciones faciales 3D co-speech, con etiquetas emocionales y de estilo bien anotadas. Finalmente, proponemos Media2Face, un modelo de difusión en el espacio latente de GNPFA para la generación de animaciones faciales co-speech, que acepta guías multimodales ricas de audio, texto e imagen. Experimentos extensos demuestran que nuestro modelo no solo logra una alta fidelidad en la síntesis de animaciones faciales, sino que también amplía el alcance de la expresividad y la adaptabilidad de estilo en las animaciones faciales 3D.
English
The synthesis of 3D facial animations from speech has garnered considerable
attention. Due to the scarcity of high-quality 4D facial data and
well-annotated abundant multi-modality labels, previous methods often suffer
from limited realism and a lack of lexible conditioning. We address this
challenge through a trilogy. We first introduce Generalized Neural Parametric
Facial Asset (GNPFA), an efficient variational auto-encoder mapping facial
geometry and images to a highly generalized expression latent space, decoupling
expressions and identities. Then, we utilize GNPFA to extract high-quality
expressions and accurate head poses from a large array of videos. This presents
the M2F-D dataset, a large, diverse, and scan-level co-speech 3D facial
animation dataset with well-annotated emotional and style labels. Finally, we
propose Media2Face, a diffusion model in GNPFA latent space for co-speech
facial animation generation, accepting rich multi-modality guidances from
audio, text, and image. Extensive experiments demonstrate that our model not
only achieves high fidelity in facial animation synthesis but also broadens the
scope of expressiveness and style adaptability in 3D facial animation.