DREAM-Talk : Méthode audio-guidée à base de diffusion pour la génération réaliste de visages parlants émotionnels à partir d'une seule image

papers.abstract

La génération de visages parlants émotionnels à partir d'une seule image portrait reste un défi majeur. La réalisation simultanée d'une expression émotionnelle parlante et d'une synchronisation labiale précise est particulièrement difficile, car l'expressivité est souvent compromise au profit de la précision de la synchronisation labiale. Comme largement adopté par de nombreux travaux antérieurs, le réseau LSTM échoue souvent à capturer les subtilités et les variations des expressions émotionnelles. Pour relever ces défis, nous introduisons DREAM-Talk, un framework audio-guidé en deux étapes basé sur la diffusion, conçu pour générer simultanément des expressions diverses et une synchronisation labiale précise. Dans la première étape, nous proposons EmoDiff, un module de diffusion novateur qui génère des expressions émotionnelles et des poses de tête hautement dynamiques en fonction de l'audio et du style émotionnel de référence. Étant donné la forte corrélation entre le mouvement des lèvres et l'audio, nous affinons ensuite la dynamique avec une précision accrue de la synchronisation labiale en utilisant les caractéristiques audio et le style émotionnel. À cette fin, nous déployons un module de rendu vidéo-à-vidéo pour transférer les expressions et les mouvements labiaux de notre avatar 3D proxy à un portrait arbitraire. À la fois quantitativement et qualitativement, DREAM-Talk surpasse les méthodes de pointe en termes d'expressivité, de précision de la synchronisation labiale et de qualité perceptuelle.

English

The generation of emotional talking faces from a single portrait image remains a significant challenge. The simultaneous achievement of expressive emotional talking and accurate lip-sync is particularly difficult, as expressiveness is often compromised for the accuracy of lip-sync. As widely adopted by many prior works, the LSTM network often fails to capture the subtleties and variations of emotional expressions. To address these challenges, we introduce DREAM-Talk, a two-stage diffusion-based audio-driven framework, tailored for generating diverse expressions and accurate lip-sync concurrently. In the first stage, we propose EmoDiff, a novel diffusion module that generates diverse highly dynamic emotional expressions and head poses in accordance with the audio and the referenced emotion style. Given the strong correlation between lip motion and audio, we then refine the dynamics with enhanced lip-sync accuracy using audio features and emotion style. To this end, we deploy a video-to-video rendering module to transfer the expressions and lip motions from our proxy 3D avatar to an arbitrary portrait. Both quantitatively and qualitatively, DREAM-Talk outperforms state-of-the-art methods in terms of expressiveness, lip-sync accuracy and perceptual quality.

DREAM-Talk : Méthode audio-guidée à base de diffusion pour la génération réaliste de visages parlants émotionnels à partir d'une seule image

DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation

papers.abstract

Support