DREAM-Talk: Diffusie-gebaseerde Realistische Emotionele Audio-gestuurde Methode voor Gezichtsanimatie vanuit een Enkel Beeld
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation
December 21, 2023
Auteurs: Chenxu Zhang, Chao Wang, Jianfeng Zhang, Hongyi Xu, Guoxian Song, You Xie, Linjie Luo, Yapeng Tian, Xiaohu Guo, Jiashi Feng
cs.AI
Samenvatting
Het genereren van emotionele pratende gezichten vanuit een enkele portretfoto blijft een aanzienlijke uitdaging. Het gelijktijdig bereiken van expressief emotioneel praten en nauwkeurige lip-sync is bijzonder moeilijk, omdat expressiviteit vaak wordt opgeofferd voor de nauwkeurigheid van lip-sync. Zoals veel eerdere werken hebben aangenomen, slaagt het LSTM-netwerk er vaak niet in om de subtiliteiten en variaties van emotionele expressies vast te leggen. Om deze uitdagingen aan te pakken, introduceren we DREAM-Talk, een tweestaps diffuusgebaseerd audio-gestuurd framework, ontworpen voor het gelijktijdig genereren van diverse expressies en nauwkeurige lip-sync. In de eerste fase stellen we EmoDiff voor, een innovatieve diffusiemodule die diverse, zeer dynamische emotionele expressies en hoofdposes genereert in overeenstemming met de audio en de referentie-emotiestijl. Gezien de sterke correlatie tussen lipbeweging en audio, verfijnen we vervolgens de dynamiek met verbeterde lip-sync nauwkeurigheid door gebruik te maken van audiofeatures en emotiestijl. Hiertoe implementeren we een video-naar-video renderingmodule om de expressies en lipbewegingen van onze proxy 3D-avatar over te dragen naar een willekeurig portret. Zowel kwantitatief als kwalitatief overtreft DREAM-Talk state-of-the-art methoden op het gebied van expressiviteit, lip-sync nauwkeurigheid en perceptuele kwaliteit.
English
The generation of emotional talking faces from a single portrait image
remains a significant challenge. The simultaneous achievement of expressive
emotional talking and accurate lip-sync is particularly difficult, as
expressiveness is often compromised for the accuracy of lip-sync. As widely
adopted by many prior works, the LSTM network often fails to capture the
subtleties and variations of emotional expressions. To address these
challenges, we introduce DREAM-Talk, a two-stage diffusion-based audio-driven
framework, tailored for generating diverse expressions and accurate lip-sync
concurrently. In the first stage, we propose EmoDiff, a novel diffusion module
that generates diverse highly dynamic emotional expressions and head poses in
accordance with the audio and the referenced emotion style. Given the strong
correlation between lip motion and audio, we then refine the dynamics with
enhanced lip-sync accuracy using audio features and emotion style. To this end,
we deploy a video-to-video rendering module to transfer the expressions and lip
motions from our proxy 3D avatar to an arbitrary portrait. Both quantitatively
and qualitatively, DREAM-Talk outperforms state-of-the-art methods in terms of
expressiveness, lip-sync accuracy and perceptual quality.