DreamTalk: Waar Expressieve Talking Head-generatie Samenkomt met Diffusie Waarschijnlijkheidsmodellen
DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models
December 15, 2023
Auteurs: Yifeng Ma, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yingya Zhang, Zhidong Deng
cs.AI
Samenvatting
Diffusiemodellen hebben opmerkelijke successen geboekt in diverse generatieve taken, maar blijven onderbelicht in de belangrijke en uitdagende taak van het genereren van expressieve pratende hoofden. In dit werk stellen we een DreamTalk-framework voor om deze leemte te vullen, dat een zorgvuldige ontwerpbenadering hanteert om het potentieel van diffusiemodellen te ontsluiten bij het genereren van expressieve pratende hoofden. Specifiek bestaat DreamTalk uit drie cruciale componenten: een denoiser-netwerk, een stijlbewuste lip-expert en een stijlvoorspeller. Het op diffusie gebaseerde denoiser-netwerk is in staat om consistente, hoogwaardige, door audio aangedreven gezichtsbewegingen te synthetiseren bij diverse expressies. Om de expressiviteit en nauwkeurigheid van lipbewegingen te verbeteren, introduceren we een stijlbewuste lip-expert die lipsynchronisatie kan begeleiden met aandacht voor spreekstijlen. Om de noodzaak van een referentievideo of tekst voor expressies te elimineren, wordt een extra op diffusie gebaseerde stijlvoorspeller gebruikt om de doel-expressie direct uit de audio te voorspellen. Op deze manier kan DreamTalk krachtige diffusiemodellen benutten om effectief expressieve gezichten te genereren en de afhankelijkheid van kostbare stijlreferenties te verminderen. Experimentele resultaten tonen aan dat DreamTalk in staat is om foto-realistische pratende gezichten te genereren met diverse spreekstijlen en nauwkeurige lipbewegingen te bereiken, waarmee het bestaande state-of-the-art tegenhangers overtreft.
English
Diffusion models have shown remarkable success in a variety of downstream
generative tasks, yet remain under-explored in the important and challenging
expressive talking head generation. In this work, we propose a DreamTalk
framework to fulfill this gap, which employs meticulous design to unlock the
potential of diffusion models in generating expressive talking heads.
Specifically, DreamTalk consists of three crucial components: a denoising
network, a style-aware lip expert, and a style predictor. The diffusion-based
denoising network is able to consistently synthesize high-quality audio-driven
face motions across diverse expressions. To enhance the expressiveness and
accuracy of lip motions, we introduce a style-aware lip expert that can guide
lip-sync while being mindful of the speaking styles. To eliminate the need for
expression reference video or text, an extra diffusion-based style predictor is
utilized to predict the target expression directly from the audio. By this
means, DreamTalk can harness powerful diffusion models to generate expressive
faces effectively and reduce the reliance on expensive style references.
Experimental results demonstrate that DreamTalk is capable of generating
photo-realistic talking faces with diverse speaking styles and achieving
accurate lip motions, surpassing existing state-of-the-art counterparts.