DreamTalk: Wenn ausdrucksstarke Talking-Head-Generierung auf Diffusionsmodelle trifft
DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models
December 15, 2023
Autoren: Yifeng Ma, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yingya Zhang, Zhidong Deng
cs.AI
Zusammenfassung
Diffusionsmodelle haben bemerkenswerte Erfolge in einer Vielzahl von generativen Downstream-Aufgaben gezeigt, sind jedoch im wichtigen und anspruchsvollen Bereich der expressiven Talking-Head-Generierung noch unzureichend erforscht. In dieser Arbeit schlagen wir das DreamTalk-Framework vor, um diese Lücke zu schließen, das durch sorgfältiges Design das Potenzial von Diffusionsmodellen bei der Generierung expressiver Talking Heads freisetzt. Konkret besteht DreamTalk aus drei entscheidenden Komponenten: einem Denoising-Netzwerk, einem stilbewussten Lippenexperten und einem Stilvorhersagemodell. Das diffusionsbasierte Denoising-Netzwerk ist in der Lage, qualitativ hochwertige, audio-gesteuerte Gesichtsbewegungen über diverse Ausdrücke hinweg konsistent zu synthetisieren. Um die Ausdrucksstärke und Genauigkeit der Lippenbewegungen zu verbessern, führen wir einen stilbewussten Lippenexperten ein, der die Lippenbewegungen synchronisieren kann, während er gleichzeitig die Sprechstile berücksichtigt. Um den Bedarf an Referenzvideos oder Texten für den Ausdruck zu eliminieren, wird ein zusätzliches diffusionsbasiertes Stilvorhersagemodell verwendet, um den Zielausdruck direkt aus dem Audio vorherzusagen. Auf diese Weise kann DreamTalk die leistungsstarken Diffusionsmodelle nutzen, um expressive Gesichter effektiv zu generieren und die Abhängigkeit von teuren Stilreferenzen zu verringern. Experimentelle Ergebnisse zeigen, dass DreamTalk in der Lage ist, fotorealistische Talking Faces mit vielfältigen Sprechstilen zu generieren und präzise Lippenbewegungen zu erreichen, womit es bestehende state-of-the-art Ansätze übertrifft.
English
Diffusion models have shown remarkable success in a variety of downstream
generative tasks, yet remain under-explored in the important and challenging
expressive talking head generation. In this work, we propose a DreamTalk
framework to fulfill this gap, which employs meticulous design to unlock the
potential of diffusion models in generating expressive talking heads.
Specifically, DreamTalk consists of three crucial components: a denoising
network, a style-aware lip expert, and a style predictor. The diffusion-based
denoising network is able to consistently synthesize high-quality audio-driven
face motions across diverse expressions. To enhance the expressiveness and
accuracy of lip motions, we introduce a style-aware lip expert that can guide
lip-sync while being mindful of the speaking styles. To eliminate the need for
expression reference video or text, an extra diffusion-based style predictor is
utilized to predict the target expression directly from the audio. By this
means, DreamTalk can harness powerful diffusion models to generate expressive
faces effectively and reduce the reliance on expensive style references.
Experimental results demonstrate that DreamTalk is capable of generating
photo-realistic talking faces with diverse speaking styles and achieving
accurate lip motions, surpassing existing state-of-the-art counterparts.