ChatPaper.aiChatPaper

Disentanglement dell’Identità, Cooperazione Emotiva: Generazione di Ritratti Parlanti Emotivi Basata sulla Correlazione

Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation

April 25, 2025
Autori: Weipeng Tan, Chuming Lin, Chengming Xu, FeiFan Xu, Xiaobin Hu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu
cs.AI

Abstract

I recenti progressi nella generazione di Talking Head (THG) hanno raggiunto un'impressionante sincronizzazione labiale e qualità visiva attraverso modelli di diffusione; tuttavia, i metodi esistenti faticano a generare ritratti emotivamente espressivi preservando l'identità del parlante. Identifichiamo tre limitazioni critiche nella generazione attuale di talking head emotivi: un utilizzo insufficiente degli indizi emotivi intrinseci dell'audio, la fuoriuscita di identità nelle rappresentazioni emotive e l'apprendimento isolato delle correlazioni emotive. Per affrontare queste sfide, proponiamo un nuovo framework denominato DICE-Talk, seguendo l'idea di separare l'identità dall'emozione e poi cooperare emozioni con caratteristiche simili. In primo luogo, sviluppiamo un embedder emotivo disaccoppiato che modella congiuntamente gli indizi emotivi audio-visivi attraverso l'attenzione cross-modale, rappresentando le emozioni come distribuzioni gaussiane indipendenti dall'identità. In secondo luogo, introduciamo un modulo di condizionamento emotivo potenziato dalla correlazione con Emotion Banks apprendibili che catturano esplicitamente le relazioni inter-emotive attraverso la quantizzazione vettoriale e l'aggregazione di feature basata sull'attenzione. In terzo luogo, progettiamo un obiettivo di discriminazione emotiva che impone la coerenza affettiva durante il processo di diffusione attraverso la classificazione nello spazio latente. Esperimenti estesi sui dataset MEAD e HDTF dimostrano la superiorità del nostro metodo, superando gli approcci all'avanguardia in termini di accuratezza emotiva mantenendo una performance competitiva nella sincronizzazione labiale. I risultati qualitativi e gli studi sugli utenti confermano ulteriormente la capacità del nostro metodo di generare ritratti che preservano l'identità con espressioni emotive ricche e correlate che si adattano naturalmente a identità non viste.
English
Recent advances in Talking Head Generation (THG) have achieved impressive lip synchronization and visual quality through diffusion models; yet existing methods struggle to generate emotionally expressive portraits while preserving speaker identity. We identify three critical limitations in current emotional talking head generation: insufficient utilization of audio's inherent emotional cues, identity leakage in emotion representations, and isolated learning of emotion correlations. To address these challenges, we propose a novel framework dubbed as DICE-Talk, following the idea of disentangling identity with emotion, and then cooperating emotions with similar characteristics. First, we develop a disentangled emotion embedder that jointly models audio-visual emotional cues through cross-modal attention, representing emotions as identity-agnostic Gaussian distributions. Second, we introduce a correlation-enhanced emotion conditioning module with learnable Emotion Banks that explicitly capture inter-emotion relationships through vector quantization and attention-based feature aggregation. Third, we design an emotion discrimination objective that enforces affective consistency during the diffusion process through latent-space classification. Extensive experiments on MEAD and HDTF datasets demonstrate our method's superiority, outperforming state-of-the-art approaches in emotion accuracy while maintaining competitive lip-sync performance. Qualitative results and user studies further confirm our method's ability to generate identity-preserving portraits with rich, correlated emotional expressions that naturally adapt to unseen identities.

Summary

AI-Generated Summary

PDF31April 30, 2025