DreamTalk : Quand la génération expressive de têtes parlantes rencontre les modèles probabilistes de diffusion
DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models
December 15, 2023
Auteurs: Yifeng Ma, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yingya Zhang, Zhidong Deng
cs.AI
Résumé
Les modèles de diffusion ont démontré un succès remarquable dans une variété de tâches génératives en aval, mais restent peu explorés dans le domaine important et complexe de la génération expressive de têtes parlantes. Dans ce travail, nous proposons un framework nommé DreamTalk pour combler cette lacune, qui utilise une conception minutieuse pour exploiter le potentiel des modèles de diffusion dans la génération de têtes parlantes expressives. Plus précisément, DreamTalk se compose de trois composants cruciaux : un réseau de débruitage, un expert labial sensible au style, et un prédicteur de style. Le réseau de débruitage basé sur la diffusion est capable de synthétiser de manière cohérente des mouvements faciaux de haute qualité pilotés par l'audio, couvrant une diversité d'expressions. Pour améliorer l'expressivité et la précision des mouvements labiaux, nous introduisons un expert labial sensible au style qui peut guider la synchronisation labiale tout en tenant compte des styles de parole. Pour éliminer le besoin d'une vidéo ou d'un texte de référence pour l'expression, un prédicteur de style supplémentaire basé sur la diffusion est utilisé pour prédire directement l'expression cible à partir de l'audio. De cette manière, DreamTalk peut exploiter les puissants modèles de diffusion pour générer efficacement des visages expressifs et réduire la dépendance aux références de style coûteuses. Les résultats expérimentaux démontrent que DreamTalk est capable de générer des visages parlants photo-réalistes avec divers styles de parole et d'atteindre des mouvements labiaux précis, surpassant les contreparties existantes de l'état de l'art.
English
Diffusion models have shown remarkable success in a variety of downstream
generative tasks, yet remain under-explored in the important and challenging
expressive talking head generation. In this work, we propose a DreamTalk
framework to fulfill this gap, which employs meticulous design to unlock the
potential of diffusion models in generating expressive talking heads.
Specifically, DreamTalk consists of three crucial components: a denoising
network, a style-aware lip expert, and a style predictor. The diffusion-based
denoising network is able to consistently synthesize high-quality audio-driven
face motions across diverse expressions. To enhance the expressiveness and
accuracy of lip motions, we introduce a style-aware lip expert that can guide
lip-sync while being mindful of the speaking styles. To eliminate the need for
expression reference video or text, an extra diffusion-based style predictor is
utilized to predict the target expression directly from the audio. By this
means, DreamTalk can harness powerful diffusion models to generate expressive
faces effectively and reduce the reliance on expensive style references.
Experimental results demonstrate that DreamTalk is capable of generating
photo-realistic talking faces with diverse speaking styles and achieving
accurate lip motions, surpassing existing state-of-the-art counterparts.