Identität entwirren, Emotionen koordinieren: Korrelationsbewusste Erzeugung emotionaler Sprechporträts
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation
April 25, 2025
Autoren: Weipeng Tan, Chuming Lin, Chengming Xu, FeiFan Xu, Xiaobin Hu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Talking Head Generation (THG) haben durch Diffusionsmodelle beeindruckende Lippensynchronisation und visuelle Qualität erreicht; dennoch kämpfen bestehende Methoden damit, emotional ausdrucksstarke Porträts zu generieren, während die Sprecheridentität erhalten bleibt. Wir identifizieren drei kritische Einschränkungen in der aktuellen emotionalen Talking Head Generation: unzureichende Nutzung der inhärenten emotionalen Hinweise in der Audioaufnahme, Identitätsverlust in den Emotionsdarstellungen und isoliertes Lernen von Emotionskorrelationen. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges Framework namens DICE-Talk vor, das auf der Idee basiert, Identität von Emotionen zu entkoppeln und dann Emotionen mit ähnlichen Eigenschaften zu kombinieren. Zunächst entwickeln wir einen entkoppelten Emotionsembedder, der audiovisuelle emotionale Hinweise durch cross-modale Aufmerksamkeit gemeinsam modelliert und Emotionen als identitätsunabhängige Gaußsche Verteilungen darstellt. Zweitens führen wir ein korrelationsverstärktes Emotionskonditionierungsmodul mit lernbaren Emotionsbanken ein, die inter-emotionale Beziehungen explizit durch Vektorquantisierung und aufmerksamkeitsbasierte Merkmalsaggregation erfassen. Drittens entwerfen wir ein Emotionsdiskriminierungsziel, das affektive Konsistenz während des Diffusionsprozesses durch latente Raumklassifikation erzwingt. Umfangreiche Experimente auf den MEAD- und HDTF-Datensätzen demonstrieren die Überlegenheit unserer Methode, die state-of-the-art Ansätze in der Emotionsgenauigkeit übertrifft, während sie eine wettbewerbsfähige Lippen-sync-Leistung beibehält. Qualitative Ergebnisse und Benutzerstudien bestätigen weiterhin die Fähigkeit unserer Methode, identitätsbewahrende Porträts mit reichen, korrelierten emotionalen Ausdrücken zu generieren, die sich natürlich an unbekannte Identitäten anpassen.
English
Recent advances in Talking Head Generation (THG) have achieved impressive lip
synchronization and visual quality through diffusion models; yet existing
methods struggle to generate emotionally expressive portraits while preserving
speaker identity. We identify three critical limitations in current emotional
talking head generation: insufficient utilization of audio's inherent emotional
cues, identity leakage in emotion representations, and isolated learning of
emotion correlations. To address these challenges, we propose a novel framework
dubbed as DICE-Talk, following the idea of disentangling identity with emotion,
and then cooperating emotions with similar characteristics. First, we develop a
disentangled emotion embedder that jointly models audio-visual emotional cues
through cross-modal attention, representing emotions as identity-agnostic
Gaussian distributions. Second, we introduce a correlation-enhanced emotion
conditioning module with learnable Emotion Banks that explicitly capture
inter-emotion relationships through vector quantization and attention-based
feature aggregation. Third, we design an emotion discrimination objective that
enforces affective consistency during the diffusion process through
latent-space classification. Extensive experiments on MEAD and HDTF datasets
demonstrate our method's superiority, outperforming state-of-the-art approaches
in emotion accuracy while maintaining competitive lip-sync performance.
Qualitative results and user studies further confirm our method's ability to
generate identity-preserving portraits with rich, correlated emotional
expressions that naturally adapt to unseen identities.Summary
AI-Generated Summary