DREAM-Talk : Méthode audio-guidée à base de diffusion pour la génération réaliste de visages parlants émotionnels à partir d'une seule image
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation
December 21, 2023
Auteurs: Chenxu Zhang, Chao Wang, Jianfeng Zhang, Hongyi Xu, Guoxian Song, You Xie, Linjie Luo, Yapeng Tian, Xiaohu Guo, Jiashi Feng
cs.AI
Résumé
La génération de visages parlants émotionnels à partir d'une seule image portrait reste un défi majeur. La réalisation simultanée d'une expression émotionnelle parlante et d'une synchronisation labiale précise est particulièrement difficile, car l'expressivité est souvent compromise au profit de la précision de la synchronisation labiale. Comme largement adopté par de nombreux travaux antérieurs, le réseau LSTM échoue souvent à capturer les subtilités et les variations des expressions émotionnelles. Pour relever ces défis, nous introduisons DREAM-Talk, un framework audio-guidé en deux étapes basé sur la diffusion, conçu pour générer simultanément des expressions diverses et une synchronisation labiale précise. Dans la première étape, nous proposons EmoDiff, un module de diffusion novateur qui génère des expressions émotionnelles et des poses de tête hautement dynamiques en fonction de l'audio et du style émotionnel de référence. Étant donné la forte corrélation entre le mouvement des lèvres et l'audio, nous affinons ensuite la dynamique avec une précision accrue de la synchronisation labiale en utilisant les caractéristiques audio et le style émotionnel. À cette fin, nous déployons un module de rendu vidéo-à-vidéo pour transférer les expressions et les mouvements labiaux de notre avatar 3D proxy à un portrait arbitraire. À la fois quantitativement et qualitativement, DREAM-Talk surpasse les méthodes de pointe en termes d'expressivité, de précision de la synchronisation labiale et de qualité perceptuelle.
English
The generation of emotional talking faces from a single portrait image
remains a significant challenge. The simultaneous achievement of expressive
emotional talking and accurate lip-sync is particularly difficult, as
expressiveness is often compromised for the accuracy of lip-sync. As widely
adopted by many prior works, the LSTM network often fails to capture the
subtleties and variations of emotional expressions. To address these
challenges, we introduce DREAM-Talk, a two-stage diffusion-based audio-driven
framework, tailored for generating diverse expressions and accurate lip-sync
concurrently. In the first stage, we propose EmoDiff, a novel diffusion module
that generates diverse highly dynamic emotional expressions and head poses in
accordance with the audio and the referenced emotion style. Given the strong
correlation between lip motion and audio, we then refine the dynamics with
enhanced lip-sync accuracy using audio features and emotion style. To this end,
we deploy a video-to-video rendering module to transfer the expressions and lip
motions from our proxy 3D avatar to an arbitrary portrait. Both quantitatively
and qualitatively, DREAM-Talk outperforms state-of-the-art methods in terms of
expressiveness, lip-sync accuracy and perceptual quality.