Media2Face: Geração de Animação Facial em Co-fala com Orientação Multimodal
Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance
January 28, 2024
Autores: Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang, Longwen Zhang, Yingliang Zhang, Jingyi Yu, Lan Xu
cs.AI
Resumo
A síntese de animações faciais 3D a partir da fala tem atraído considerável atenção. Devido à escassez de dados faciais 4D de alta qualidade e à falta de anotações abundantes e precisas de múltiplas modalidades, os métodos anteriores frequentemente sofrem com realismo limitado e uma falta de condicionamento flexível. Abordamos esse desafio por meio de uma trilogia. Primeiro, introduzimos o Generalized Neural Parametric Facial Asset (GNPFA), um autoencoder variacional eficiente que mapeia a geometria facial e imagens para um espaço latente de expressão altamente generalizado, desacoplando expressões e identidades. Em seguida, utilizamos o GNPFA para extrair expressões de alta qualidade e poses precisas da cabeça de uma grande variedade de vídeos. Isso resulta no conjunto de dados M2F-D, um grande e diversificado conjunto de dados de animação facial 3D sincronizada com a fala, com anotações precisas de emoções e estilos. Por fim, propomos o Media2Face, um modelo de difusão no espaço latente do GNPFA para a geração de animações faciais sincronizadas com a fala, que aceita orientações ricas de múltiplas modalidades, como áudio, texto e imagem. Experimentos extensivos demonstram que nosso modelo não apenas alcança alta fidelidade na síntese de animações faciais, mas também amplia o escopo de expressividade e adaptabilidade de estilos em animações faciais 3D.
English
The synthesis of 3D facial animations from speech has garnered considerable
attention. Due to the scarcity of high-quality 4D facial data and
well-annotated abundant multi-modality labels, previous methods often suffer
from limited realism and a lack of lexible conditioning. We address this
challenge through a trilogy. We first introduce Generalized Neural Parametric
Facial Asset (GNPFA), an efficient variational auto-encoder mapping facial
geometry and images to a highly generalized expression latent space, decoupling
expressions and identities. Then, we utilize GNPFA to extract high-quality
expressions and accurate head poses from a large array of videos. This presents
the M2F-D dataset, a large, diverse, and scan-level co-speech 3D facial
animation dataset with well-annotated emotional and style labels. Finally, we
propose Media2Face, a diffusion model in GNPFA latent space for co-speech
facial animation generation, accepting rich multi-modality guidances from
audio, text, and image. Extensive experiments demonstrate that our model not
only achieves high fidelity in facial animation synthesis but also broadens the
scope of expressiveness and style adaptability in 3D facial animation.