Identiteit Ontwarren, Emotie Samenwerken: Correlatiebewuste Generatie van Emotionele Sprekende Portretten
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation
April 25, 2025
Auteurs: Weipeng Tan, Chuming Lin, Chengming Xu, FeiFan Xu, Xiaobin Hu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu
cs.AI
Samenvatting
Recente vooruitgang in Talking Head Generation (THG) heeft indrukwekkende lipsynchronisatie en visuele kwaliteit bereikt dankzij diffusiemodellen; toch hebben bestaande methoden moeite om emotioneel expressieve portretten te genereren terwijl de sprekersidentiteit behouden blijft. We identificeren drie kritieke beperkingen in de huidige generatie van emotionele pratende hoofden: onvoldoende benutting van de inherente emotionele signalen in audio, identiteitslekkage in emotierepresentaties, en geïsoleerd leren van emotiecorrelaties. Om deze uitdagingen aan te pakken, stellen we een nieuw framework voor, genaamd DICE-Talk, dat het idee volgt om identiteit van emotie te ontwarren en vervolgens emoties met vergelijkbare kenmerken samen te laten werken. Ten eerste ontwikkelen we een ontwarde emotie-embedder die audiovisuele emotionele signalen gezamenlijk modelleert via cross-modale aandacht, waarbij emoties worden weergegeven als identiteits-agnostische Gaussische verdelingen. Ten tweede introduceren we een correlatie-versterkte emotieconditioneringsmodule met leerbare Emotiebanken die inter-emotierelaties expliciet vastleggen via vectorquantisatie en aandacht-gebaseerde kenmerkaggregatie. Ten derde ontwerpen we een emotiediscriminatiedoelstelling die affectieve consistentie tijdens het diffusieproces afdwingt via latent-ruimteclassificatie. Uitgebreide experimenten op de MEAD- en HDTF-datasets tonen de superioriteit van onze methode aan, waarbij state-of-the-art benaderingen worden overtroffen in emotie-nauwkeurigheid terwijl competitieve lip-sync-prestaties worden behouden. Kwalitatieve resultaten en gebruikersstudies bevestigen verder het vermogen van onze methode om identiteit-behoudende portretten te genereren met rijke, gecorreleerde emotionele uitdrukkingen die zich natuurlijk aanpassen aan onbekende identiteiten.
English
Recent advances in Talking Head Generation (THG) have achieved impressive lip
synchronization and visual quality through diffusion models; yet existing
methods struggle to generate emotionally expressive portraits while preserving
speaker identity. We identify three critical limitations in current emotional
talking head generation: insufficient utilization of audio's inherent emotional
cues, identity leakage in emotion representations, and isolated learning of
emotion correlations. To address these challenges, we propose a novel framework
dubbed as DICE-Talk, following the idea of disentangling identity with emotion,
and then cooperating emotions with similar characteristics. First, we develop a
disentangled emotion embedder that jointly models audio-visual emotional cues
through cross-modal attention, representing emotions as identity-agnostic
Gaussian distributions. Second, we introduce a correlation-enhanced emotion
conditioning module with learnable Emotion Banks that explicitly capture
inter-emotion relationships through vector quantization and attention-based
feature aggregation. Third, we design an emotion discrimination objective that
enforces affective consistency during the diffusion process through
latent-space classification. Extensive experiments on MEAD and HDTF datasets
demonstrate our method's superiority, outperforming state-of-the-art approaches
in emotion accuracy while maintaining competitive lip-sync performance.
Qualitative results and user studies further confirm our method's ability to
generate identity-preserving portraits with rich, correlated emotional
expressions that naturally adapt to unseen identities.