DreamTalk: Cuando la Generación Expresiva de Cabezas Parlantes Encuentra los Modelos Probabilísticos de Difusión
DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models
December 15, 2023
Autores: Yifeng Ma, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yingya Zhang, Zhidong Deng
cs.AI
Resumen
Los modelos de difusión han demostrado un éxito notable en una variedad de tareas generativas posteriores, pero aún están poco explorados en la importante y desafiante generación expresiva de cabezas parlantes. En este trabajo, proponemos un marco llamado DreamTalk para abordar esta brecha, el cual emplea un diseño meticuloso para desbloquear el potencial de los modelos de difusión en la generación de cabezas parlantes expresivas. Específicamente, DreamTalk consta de tres componentes cruciales: una red de eliminación de ruido, un experto labial consciente del estilo y un predictor de estilo. La red de eliminación de ruido basada en difusión es capaz de sintetizar de manera consistente movimientos faciales de alta calidad impulsados por audio en diversas expresiones. Para mejorar la expresividad y precisión de los movimientos labiales, introducimos un experto labial consciente del estilo que puede guiar la sincronización labial mientras tiene en cuenta los estilos de habla. Para eliminar la necesidad de un video o texto de referencia de expresión, se utiliza un predictor de estilo adicional basado en difusión para predecir la expresión objetivo directamente desde el audio. De esta manera, DreamTalk puede aprovechar los potentes modelos de difusión para generar rostros expresivos de manera efectiva y reducir la dependencia de referencias de estilo costosas. Los resultados experimentales demuestran que DreamTalk es capaz de generar rostros parlantes fotorrealistas con diversos estilos de habla y lograr movimientos labiales precisos, superando a las contrapartes existentes de última generación.
English
Diffusion models have shown remarkable success in a variety of downstream
generative tasks, yet remain under-explored in the important and challenging
expressive talking head generation. In this work, we propose a DreamTalk
framework to fulfill this gap, which employs meticulous design to unlock the
potential of diffusion models in generating expressive talking heads.
Specifically, DreamTalk consists of three crucial components: a denoising
network, a style-aware lip expert, and a style predictor. The diffusion-based
denoising network is able to consistently synthesize high-quality audio-driven
face motions across diverse expressions. To enhance the expressiveness and
accuracy of lip motions, we introduce a style-aware lip expert that can guide
lip-sync while being mindful of the speaking styles. To eliminate the need for
expression reference video or text, an extra diffusion-based style predictor is
utilized to predict the target expression directly from the audio. By this
means, DreamTalk can harness powerful diffusion models to generate expressive
faces effectively and reduce the reliance on expensive style references.
Experimental results demonstrate that DreamTalk is capable of generating
photo-realistic talking faces with diverse speaking styles and achieving
accurate lip motions, surpassing existing state-of-the-art counterparts.