DREAM-Talk: Metodo basato su diffusione per la generazione realistica di volti parlanti da singola immagine guidata da audio emotivo

Abstract

La generazione di volti parlanti emotivi a partire da una singola immagine ritratto rimane una sfida significativa. Il raggiungimento simultaneo di un parlato emotivo espressivo e di una sincronizzazione labiale accurata è particolarmente difficile, poiché l'espressività viene spesso compromessa a favore della precisione della sincronizzazione labiale. Come ampiamente adottato da molti lavori precedenti, la rete LSTM spesso non riesce a catturare le sottigliezze e le variazioni delle espressioni emotive. Per affrontare queste sfide, introduciamo DREAM-Talk, un framework basato su diffusione a due stadi guidato dall'audio, progettato per generare espressioni diverse e una sincronizzazione labiale accurata in modo simultaneo. Nella prima fase, proponiamo EmoDiff, un modulo di diffusione innovativo che genera espressioni emotive altamente dinamiche e pose della testa in base all'audio e allo stile emotivo di riferimento. Data la forte correlazione tra il movimento delle labbra e l'audio, perfezioniamo poi la dinamica con una maggiore precisione della sincronizzazione labiale utilizzando le caratteristiche audio e lo stile emotivo. A tal fine, utilizziamo un modulo di rendering video-to-video per trasferire le espressioni e i movimenti delle labbra dal nostro avatar 3D proxy a un ritratto arbitrario. Sia quantitativamente che qualitativamente, DREAM-Talk supera i metodi all'avanguardia in termini di espressività, precisione della sincronizzazione labiale e qualità percettiva.

English

The generation of emotional talking faces from a single portrait image remains a significant challenge. The simultaneous achievement of expressive emotional talking and accurate lip-sync is particularly difficult, as expressiveness is often compromised for the accuracy of lip-sync. As widely adopted by many prior works, the LSTM network often fails to capture the subtleties and variations of emotional expressions. To address these challenges, we introduce DREAM-Talk, a two-stage diffusion-based audio-driven framework, tailored for generating diverse expressions and accurate lip-sync concurrently. In the first stage, we propose EmoDiff, a novel diffusion module that generates diverse highly dynamic emotional expressions and head poses in accordance with the audio and the referenced emotion style. Given the strong correlation between lip motion and audio, we then refine the dynamics with enhanced lip-sync accuracy using audio features and emotion style. To this end, we deploy a video-to-video rendering module to transfer the expressions and lip motions from our proxy 3D avatar to an arbitrary portrait. Both quantitatively and qualitatively, DREAM-Talk outperforms state-of-the-art methods in terms of expressiveness, lip-sync accuracy and perceptual quality.

DREAM-Talk: Metodo basato su diffusione per la generazione realistica di volti parlanti da singola immagine guidata da audio emotivo

DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation

Abstract

Support