Démêler l'Identité, Coopérer avec l'Émotion : Génération de Portraits Parlants Émotionnels Conscients des Corrélations

papers.abstract

Les récents progrès dans la génération de têtes parlantes (THG) ont permis d'obtenir une synchronisation labiale et une qualité visuelle impressionnantes grâce aux modèles de diffusion ; cependant, les méthodes existantes peinent à générer des portraits expressifs sur le plan émotionnel tout en préservant l'identité du locuteur. Nous identifions trois limitations majeures dans la génération actuelle de têtes parlantes émotionnelles : une utilisation insuffisante des indices émotionnels inhérents à l'audio, une fuite d'identité dans les représentations émotionnelles, et un apprentissage isolé des corrélations émotionnelles. Pour relever ces défis, nous proposons un nouveau framework appelé DICE-Talk, basé sur l'idée de dissocier l'identité de l'émotion, puis de coopérer les émotions partageant des caractéristiques similaires. Premièrement, nous développons un encodeur d'émotions dissocié qui modélise conjointement les indices émotionnels audio-visuels via une attention intermodale, représentant les émotions sous forme de distributions gaussiennes indépendantes de l'identité. Deuxièmement, nous introduisons un module de conditionnement émotionnel renforcé par les corrélations, doté de banques d'émotions apprenables qui capturent explicitement les relations inter-émotionnelles grâce à la quantification vectorielle et à l'agrégation de caractéristiques basée sur l'attention. Troisièmement, nous concevons un objectif de discrimination émotionnelle qui impose une cohérence affective pendant le processus de diffusion via une classification dans l'espace latent. Des expériences approfondies sur les ensembles de données MEAD et HDTF démontrent la supériorité de notre méthode, surpassant les approches de pointe en précision émotionnelle tout en maintenant des performances compétitives en synchronisation labiale. Les résultats qualitatifs et les études utilisateurs confirment en outre la capacité de notre méthode à générer des portraits préservant l'identité avec des expressions émotionnelles riches et corrélées, s'adaptant naturellement à des identités non vues.

English

Recent advances in Talking Head Generation (THG) have achieved impressive lip synchronization and visual quality through diffusion models; yet existing methods struggle to generate emotionally expressive portraits while preserving speaker identity. We identify three critical limitations in current emotional talking head generation: insufficient utilization of audio's inherent emotional cues, identity leakage in emotion representations, and isolated learning of emotion correlations. To address these challenges, we propose a novel framework dubbed as DICE-Talk, following the idea of disentangling identity with emotion, and then cooperating emotions with similar characteristics. First, we develop a disentangled emotion embedder that jointly models audio-visual emotional cues through cross-modal attention, representing emotions as identity-agnostic Gaussian distributions. Second, we introduce a correlation-enhanced emotion conditioning module with learnable Emotion Banks that explicitly capture inter-emotion relationships through vector quantization and attention-based feature aggregation. Third, we design an emotion discrimination objective that enforces affective consistency during the diffusion process through latent-space classification. Extensive experiments on MEAD and HDTF datasets demonstrate our method's superiority, outperforming state-of-the-art approaches in emotion accuracy while maintaining competitive lip-sync performance. Qualitative results and user studies further confirm our method's ability to generate identity-preserving portraits with rich, correlated emotional expressions that naturally adapt to unseen identities.

Démêler l'Identité, Coopérer avec l'Émotion : Génération de Portraits Parlants Émotionnels Conscients des Corrélations

Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation

papers.abstract

Support