DreamTalk: Quando la Generazione di Teste Parlanti Espressive Incontra i Modelli Probabilistici di Diffusione

Abstract

I modelli di diffusione hanno dimostrato un notevole successo in una varietà di compiti generativi downstream, ma rimangono ancora poco esplorati nel campo importante e impegnativo della generazione espressiva di volti parlanti. In questo lavoro, proponiamo un framework chiamato DreamTalk per colmare questa lacuna, che impiega un design meticoloso per sbloccare il potenziale dei modelli di diffusione nella generazione di volti parlanti espressivi. Nello specifico, DreamTalk è composto da tre componenti cruciali: una rete di denoising, un esperto labiale consapevole dello stile e un predittore di stile. La rete di denoising basata su diffusione è in grado di sintetizzare in modo coerente movimenti facciali di alta qualità guidati dall'audio attraverso diverse espressioni. Per migliorare l'espressività e l'accuratezza dei movimenti labiali, introduciamo un esperto labiale consapevole dello stile che può guidare la sincronizzazione labiale tenendo conto degli stili di parlato. Per eliminare la necessità di video o testo di riferimento per l'espressione, viene utilizzato un predittore di stile basato su diffusione per prevedere direttamente dall'audio l'espressione target. In questo modo, DreamTalk può sfruttare i potenti modelli di diffusione per generare volti espressivi in modo efficace e ridurre la dipendenza da costosi riferimenti di stile. I risultati sperimentali dimostrano che DreamTalk è in grado di generare volti parlanti fotorealistici con diversi stili di parlato e di ottenere movimenti labiali accurati, superando le controparti state-of-the-art esistenti.

English

Diffusion models have shown remarkable success in a variety of downstream generative tasks, yet remain under-explored in the important and challenging expressive talking head generation. In this work, we propose a DreamTalk framework to fulfill this gap, which employs meticulous design to unlock the potential of diffusion models in generating expressive talking heads. Specifically, DreamTalk consists of three crucial components: a denoising network, a style-aware lip expert, and a style predictor. The diffusion-based denoising network is able to consistently synthesize high-quality audio-driven face motions across diverse expressions. To enhance the expressiveness and accuracy of lip motions, we introduce a style-aware lip expert that can guide lip-sync while being mindful of the speaking styles. To eliminate the need for expression reference video or text, an extra diffusion-based style predictor is utilized to predict the target expression directly from the audio. By this means, DreamTalk can harness powerful diffusion models to generate expressive faces effectively and reduce the reliance on expensive style references. Experimental results demonstrate that DreamTalk is capable of generating photo-realistic talking faces with diverse speaking styles and achieving accurate lip motions, surpassing existing state-of-the-art counterparts.

DreamTalk: Quando la Generazione di Teste Parlanti Espressive Incontra i Modelli Probabilistici di Diffusione

DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models

Abstract

Support