Démêler l'Identité, Coopérer avec l'Émotion : Génération de Portraits Parlants Émotionnels Conscients des Corrélations
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation
April 25, 2025
Auteurs: Weipeng Tan, Chuming Lin, Chengming Xu, FeiFan Xu, Xiaobin Hu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu
cs.AI
Résumé
Les récents progrès dans la génération de têtes parlantes (THG) ont permis d'obtenir une synchronisation labiale et une qualité visuelle impressionnantes grâce aux modèles de diffusion ; cependant, les méthodes existantes peinent à générer des portraits expressifs sur le plan émotionnel tout en préservant l'identité du locuteur. Nous identifions trois limitations majeures dans la génération actuelle de têtes parlantes émotionnelles : une utilisation insuffisante des indices émotionnels inhérents à l'audio, une fuite d'identité dans les représentations émotionnelles, et un apprentissage isolé des corrélations émotionnelles. Pour relever ces défis, nous proposons un nouveau framework appelé DICE-Talk, basé sur l'idée de dissocier l'identité de l'émotion, puis de coopérer les émotions partageant des caractéristiques similaires. Premièrement, nous développons un encodeur d'émotions dissocié qui modélise conjointement les indices émotionnels audio-visuels via une attention intermodale, représentant les émotions sous forme de distributions gaussiennes indépendantes de l'identité. Deuxièmement, nous introduisons un module de conditionnement émotionnel renforcé par les corrélations, doté de banques d'émotions apprenables qui capturent explicitement les relations inter-émotionnelles grâce à la quantification vectorielle et à l'agrégation de caractéristiques basée sur l'attention. Troisièmement, nous concevons un objectif de discrimination émotionnelle qui impose une cohérence affective pendant le processus de diffusion via une classification dans l'espace latent. Des expériences approfondies sur les ensembles de données MEAD et HDTF démontrent la supériorité de notre méthode, surpassant les approches de pointe en précision émotionnelle tout en maintenant des performances compétitives en synchronisation labiale. Les résultats qualitatifs et les études utilisateurs confirment en outre la capacité de notre méthode à générer des portraits préservant l'identité avec des expressions émotionnelles riches et corrélées, s'adaptant naturellement à des identités non vues.
English
Recent advances in Talking Head Generation (THG) have achieved impressive lip
synchronization and visual quality through diffusion models; yet existing
methods struggle to generate emotionally expressive portraits while preserving
speaker identity. We identify three critical limitations in current emotional
talking head generation: insufficient utilization of audio's inherent emotional
cues, identity leakage in emotion representations, and isolated learning of
emotion correlations. To address these challenges, we propose a novel framework
dubbed as DICE-Talk, following the idea of disentangling identity with emotion,
and then cooperating emotions with similar characteristics. First, we develop a
disentangled emotion embedder that jointly models audio-visual emotional cues
through cross-modal attention, representing emotions as identity-agnostic
Gaussian distributions. Second, we introduce a correlation-enhanced emotion
conditioning module with learnable Emotion Banks that explicitly capture
inter-emotion relationships through vector quantization and attention-based
feature aggregation. Third, we design an emotion discrimination objective that
enforces affective consistency during the diffusion process through
latent-space classification. Extensive experiments on MEAD and HDTF datasets
demonstrate our method's superiority, outperforming state-of-the-art approaches
in emotion accuracy while maintaining competitive lip-sync performance.
Qualitative results and user studies further confirm our method's ability to
generate identity-preserving portraits with rich, correlated emotional
expressions that naturally adapt to unseen identities.Summary
AI-Generated Summary