DREAM-Talk: Diffusie-gebaseerde Realistische Emotionele Audio-gestuurde Methode voor Gezichtsanimatie vanuit een Enkel Beeld

Samenvatting

Het genereren van emotionele pratende gezichten vanuit een enkele portretfoto blijft een aanzienlijke uitdaging. Het gelijktijdig bereiken van expressief emotioneel praten en nauwkeurige lip-sync is bijzonder moeilijk, omdat expressiviteit vaak wordt opgeofferd voor de nauwkeurigheid van lip-sync. Zoals veel eerdere werken hebben aangenomen, slaagt het LSTM-netwerk er vaak niet in om de subtiliteiten en variaties van emotionele expressies vast te leggen. Om deze uitdagingen aan te pakken, introduceren we DREAM-Talk, een tweestaps diffuusgebaseerd audio-gestuurd framework, ontworpen voor het gelijktijdig genereren van diverse expressies en nauwkeurige lip-sync. In de eerste fase stellen we EmoDiff voor, een innovatieve diffusiemodule die diverse, zeer dynamische emotionele expressies en hoofdposes genereert in overeenstemming met de audio en de referentie-emotiestijl. Gezien de sterke correlatie tussen lipbeweging en audio, verfijnen we vervolgens de dynamiek met verbeterde lip-sync nauwkeurigheid door gebruik te maken van audiofeatures en emotiestijl. Hiertoe implementeren we een video-naar-video renderingmodule om de expressies en lipbewegingen van onze proxy 3D-avatar over te dragen naar een willekeurig portret. Zowel kwantitatief als kwalitatief overtreft DREAM-Talk state-of-the-art methoden op het gebied van expressiviteit, lip-sync nauwkeurigheid en perceptuele kwaliteit.

English

The generation of emotional talking faces from a single portrait image remains a significant challenge. The simultaneous achievement of expressive emotional talking and accurate lip-sync is particularly difficult, as expressiveness is often compromised for the accuracy of lip-sync. As widely adopted by many prior works, the LSTM network often fails to capture the subtleties and variations of emotional expressions. To address these challenges, we introduce DREAM-Talk, a two-stage diffusion-based audio-driven framework, tailored for generating diverse expressions and accurate lip-sync concurrently. In the first stage, we propose EmoDiff, a novel diffusion module that generates diverse highly dynamic emotional expressions and head poses in accordance with the audio and the referenced emotion style. Given the strong correlation between lip motion and audio, we then refine the dynamics with enhanced lip-sync accuracy using audio features and emotion style. To this end, we deploy a video-to-video rendering module to transfer the expressions and lip motions from our proxy 3D avatar to an arbitrary portrait. Both quantitatively and qualitatively, DREAM-Talk outperforms state-of-the-art methods in terms of expressiveness, lip-sync accuracy and perceptual quality.

DREAM-Talk: Diffusie-gebaseerde Realistische Emotionele Audio-gestuurde Methode voor Gezichtsanimatie vanuit een Enkel Beeld

DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation

Samenvatting

Support