DREAM-Talk: Método Basado en Difusión para la Generación Realista de Rostros Hablantes a partir de Audio Emocional y una Única Imagen
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation
December 21, 2023
Autores: Chenxu Zhang, Chao Wang, Jianfeng Zhang, Hongyi Xu, Guoxian Song, You Xie, Linjie Luo, Yapeng Tian, Xiaohu Guo, Jiashi Feng
cs.AI
Resumen
La generación de rostros parlantes con emociones a partir de una única imagen de retrato sigue siendo un desafío significativo. Lograr simultáneamente una expresión emocional hablada y una sincronización labial precisa es particularmente difícil, ya que la expresividad a menudo se ve comprometida por la precisión de la sincronización labial. Como ha sido ampliamente adoptado en trabajos previos, la red LSTM a menudo no logra capturar las sutilezas y variaciones de las expresiones emocionales. Para abordar estos desafíos, presentamos DREAM-Talk, un marco basado en difusión en dos etapas impulsado por audio, diseñado para generar diversas expresiones y una sincronización labial precisa de manera concurrente. En la primera etapa, proponemos EmoDiff, un módulo de difusión novedoso que genera expresiones emocionales altamente dinámicas y diversas, junto con poses de la cabeza, en función del audio y el estilo emocional de referencia. Dada la fuerte correlación entre el movimiento labial y el audio, refinamos la dinámica con una mayor precisión en la sincronización labial utilizando características de audio y el estilo emocional. Para ello, implementamos un módulo de renderizado de video a video para transferir las expresiones y movimientos labiales desde nuestro avatar 3D proxy a un retrato arbitrario. Tanto cuantitativa como cualitativamente, DREAM-Talk supera a los métodos más avanzados en términos de expresividad, precisión de sincronización labial y calidad perceptual.
English
The generation of emotional talking faces from a single portrait image
remains a significant challenge. The simultaneous achievement of expressive
emotional talking and accurate lip-sync is particularly difficult, as
expressiveness is often compromised for the accuracy of lip-sync. As widely
adopted by many prior works, the LSTM network often fails to capture the
subtleties and variations of emotional expressions. To address these
challenges, we introduce DREAM-Talk, a two-stage diffusion-based audio-driven
framework, tailored for generating diverse expressions and accurate lip-sync
concurrently. In the first stage, we propose EmoDiff, a novel diffusion module
that generates diverse highly dynamic emotional expressions and head poses in
accordance with the audio and the referenced emotion style. Given the strong
correlation between lip motion and audio, we then refine the dynamics with
enhanced lip-sync accuracy using audio features and emotion style. To this end,
we deploy a video-to-video rendering module to transfer the expressions and lip
motions from our proxy 3D avatar to an arbitrary portrait. Both quantitatively
and qualitatively, DREAM-Talk outperforms state-of-the-art methods in terms of
expressiveness, lip-sync accuracy and perceptual quality.