ChatPaper.aiChatPaper

DreamTalk: Quando a Geração de Cabeças Falantes Expressivas Encontra Modelos Probabilísticos de Difusão

DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models

December 15, 2023
Autores: Yifeng Ma, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yingya Zhang, Zhidong Deng
cs.AI

Resumo

Os modelos de difusão têm demonstrado sucesso notável em uma variedade de tarefas generativas subsequentes, mas ainda são pouco explorados na importante e desafiadora geração de cabeças falantes expressivas. Neste trabalho, propomos uma estrutura chamada DreamTalk para preencher essa lacuna, que emprega um design meticuloso para desbloquear o potencial dos modelos de difusão na geração de cabeças falantes expressivas. Especificamente, o DreamTalk consiste em três componentes cruciais: uma rede de remoção de ruído, um especialista em lábios consciente do estilo e um preditor de estilo. A rede de remoção de ruído baseada em difusão é capaz de sintetizar consistentemente movimentos faciais de alta qualidade impulsionados por áudio em diversas expressões. Para aprimorar a expressividade e a precisão dos movimentos labiais, introduzimos um especialista em lábios consciente do estilo que pode guiar a sincronização labial enquanto considera os estilos de fala. Para eliminar a necessidade de vídeo ou texto de referência de expressão, um preditor de estilo adicional baseado em difusão é utilizado para prever a expressão alvo diretamente do áudio. Dessa forma, o DreamTalk pode aproveitar modelos de difusão poderosos para gerar rostos expressivos de maneira eficaz e reduzir a dependência de referências de estilo caras. Resultados experimentais demonstram que o DreamTalk é capaz de gerar rostos falantes foto-realísticos com diversos estilos de fala e alcançar movimentos labiais precisos, superando as contrapartes state-of-the-art existentes.
English
Diffusion models have shown remarkable success in a variety of downstream generative tasks, yet remain under-explored in the important and challenging expressive talking head generation. In this work, we propose a DreamTalk framework to fulfill this gap, which employs meticulous design to unlock the potential of diffusion models in generating expressive talking heads. Specifically, DreamTalk consists of three crucial components: a denoising network, a style-aware lip expert, and a style predictor. The diffusion-based denoising network is able to consistently synthesize high-quality audio-driven face motions across diverse expressions. To enhance the expressiveness and accuracy of lip motions, we introduce a style-aware lip expert that can guide lip-sync while being mindful of the speaking styles. To eliminate the need for expression reference video or text, an extra diffusion-based style predictor is utilized to predict the target expression directly from the audio. By this means, DreamTalk can harness powerful diffusion models to generate expressive faces effectively and reduce the reliance on expensive style references. Experimental results demonstrate that DreamTalk is capable of generating photo-realistic talking faces with diverse speaking styles and achieving accurate lip motions, surpassing existing state-of-the-art counterparts.
PDF274February 8, 2026