ChatPaper.aiChatPaper

Desvendar Identidade, Cooperar com a Emoção: Geração de Retratos Falantes Emocionais com Consciência de Correlação

Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation

April 25, 2025
Autores: Weipeng Tan, Chuming Lin, Chengming Xu, FeiFan Xu, Xiaobin Hu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu
cs.AI

Resumo

Avanços recentes na Geração de Cabeças Falantes (THG) alcançaram impressionante sincronização labial e qualidade visual por meio de modelos de difusão; no entanto, os métodos existentes lutam para gerar retratos emocionalmente expressivos enquanto preservam a identidade do falante. Identificamos três limitações críticas na geração atual de cabeças falantes emocionais: utilização insuficiente das pistas emocionais inerentes ao áudio, vazamento de identidade nas representações de emoção e aprendizado isolado das correlações emocionais. Para enfrentar esses desafios, propomos uma nova estrutura denominada DICE-Talk, seguindo a ideia de desvincular identidade de emoção e, em seguida, cooperar emoções com características semelhantes. Primeiro, desenvolvemos um incorporador de emoção desvinculado que modela conjuntamente pistas emocionais áudio-visuais por meio de atenção cruzada, representando emoções como distribuições Gaussianas agnósticas à identidade. Segundo, introduzimos um módulo de condicionamento de emoção aprimorado por correlação com Bancos de Emoção aprendíveis que capturam explicitamente as relações inter-emocionais por meio de quantização vetorial e agregação de características baseada em atenção. Terceiro, projetamos um objetivo de discriminação de emoção que impõe consistência afetiva durante o processo de difusão por meio de classificação no espaço latente. Experimentos extensivos nos conjuntos de dados MEAD e HDTF demonstram a superioridade de nosso método, superando abordagens de ponta em precisão emocional enquanto mantém desempenho competitivo em sincronização labial. Resultados qualitativos e estudos de usuários confirmam ainda a capacidade de nosso método de gerar retratos que preservam a identidade com expressões emocionais ricas e correlacionadas que se adaptam naturalmente a identidades não vistas.
English
Recent advances in Talking Head Generation (THG) have achieved impressive lip synchronization and visual quality through diffusion models; yet existing methods struggle to generate emotionally expressive portraits while preserving speaker identity. We identify three critical limitations in current emotional talking head generation: insufficient utilization of audio's inherent emotional cues, identity leakage in emotion representations, and isolated learning of emotion correlations. To address these challenges, we propose a novel framework dubbed as DICE-Talk, following the idea of disentangling identity with emotion, and then cooperating emotions with similar characteristics. First, we develop a disentangled emotion embedder that jointly models audio-visual emotional cues through cross-modal attention, representing emotions as identity-agnostic Gaussian distributions. Second, we introduce a correlation-enhanced emotion conditioning module with learnable Emotion Banks that explicitly capture inter-emotion relationships through vector quantization and attention-based feature aggregation. Third, we design an emotion discrimination objective that enforces affective consistency during the diffusion process through latent-space classification. Extensive experiments on MEAD and HDTF datasets demonstrate our method's superiority, outperforming state-of-the-art approaches in emotion accuracy while maintaining competitive lip-sync performance. Qualitative results and user studies further confirm our method's ability to generate identity-preserving portraits with rich, correlated emotional expressions that naturally adapt to unseen identities.

Summary

AI-Generated Summary

PDF31April 30, 2025