DREAM-Talk: Metodo basato su diffusione per la generazione realistica di volti parlanti da singola immagine guidata da audio emotivo
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation
December 21, 2023
Autori: Chenxu Zhang, Chao Wang, Jianfeng Zhang, Hongyi Xu, Guoxian Song, You Xie, Linjie Luo, Yapeng Tian, Xiaohu Guo, Jiashi Feng
cs.AI
Abstract
La generazione di volti parlanti emotivi a partire da una singola immagine ritratto rimane una sfida significativa. Il raggiungimento simultaneo di un parlato emotivo espressivo e di una sincronizzazione labiale accurata è particolarmente difficile, poiché l'espressività viene spesso compromessa a favore della precisione della sincronizzazione labiale. Come ampiamente adottato da molti lavori precedenti, la rete LSTM spesso non riesce a catturare le sottigliezze e le variazioni delle espressioni emotive. Per affrontare queste sfide, introduciamo DREAM-Talk, un framework basato su diffusione a due stadi guidato dall'audio, progettato per generare espressioni diverse e una sincronizzazione labiale accurata in modo simultaneo. Nella prima fase, proponiamo EmoDiff, un modulo di diffusione innovativo che genera espressioni emotive altamente dinamiche e pose della testa in base all'audio e allo stile emotivo di riferimento. Data la forte correlazione tra il movimento delle labbra e l'audio, perfezioniamo poi la dinamica con una maggiore precisione della sincronizzazione labiale utilizzando le caratteristiche audio e lo stile emotivo. A tal fine, utilizziamo un modulo di rendering video-to-video per trasferire le espressioni e i movimenti delle labbra dal nostro avatar 3D proxy a un ritratto arbitrario. Sia quantitativamente che qualitativamente, DREAM-Talk supera i metodi all'avanguardia in termini di espressività, precisione della sincronizzazione labiale e qualità percettiva.
English
The generation of emotional talking faces from a single portrait image
remains a significant challenge. The simultaneous achievement of expressive
emotional talking and accurate lip-sync is particularly difficult, as
expressiveness is often compromised for the accuracy of lip-sync. As widely
adopted by many prior works, the LSTM network often fails to capture the
subtleties and variations of emotional expressions. To address these
challenges, we introduce DREAM-Talk, a two-stage diffusion-based audio-driven
framework, tailored for generating diverse expressions and accurate lip-sync
concurrently. In the first stage, we propose EmoDiff, a novel diffusion module
that generates diverse highly dynamic emotional expressions and head poses in
accordance with the audio and the referenced emotion style. Given the strong
correlation between lip motion and audio, we then refine the dynamics with
enhanced lip-sync accuracy using audio features and emotion style. To this end,
we deploy a video-to-video rendering module to transfer the expressions and lip
motions from our proxy 3D avatar to an arbitrary portrait. Both quantitatively
and qualitatively, DREAM-Talk outperforms state-of-the-art methods in terms of
expressiveness, lip-sync accuracy and perceptual quality.