ChatPaper.aiChatPaper

Desenredar la Identidad, Cooperar con la Emoción: Generación de Retratos Hablados Emocionales Conscientes de la Correlación

Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation

April 25, 2025
Autores: Weipeng Tan, Chuming Lin, Chengming Xu, FeiFan Xu, Xiaobin Hu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu
cs.AI

Resumen

Los avances recientes en la Generación de Cabezas Parlantes (THG, por sus siglas en inglés) han logrado una impresionante sincronización labial y calidad visual mediante modelos de difusión; sin embargo, los métodos existentes tienen dificultades para generar retratos emocionalmente expresivos mientras preservan la identidad del hablante. Identificamos tres limitaciones críticas en la generación actual de cabezas parlantes emocionales: la utilización insuficiente de las señales emocionales inherentes al audio, la fuga de identidad en las representaciones emocionales y el aprendizaje aislado de las correlaciones emocionales. Para abordar estos desafíos, proponemos un nuevo marco denominado DICE-Talk, siguiendo la idea de desentrelazar la identidad de la emoción y luego cooperar emociones con características similares. Primero, desarrollamos un codificador de emociones desentrelazado que modela conjuntamente las señales emocionales audiovisuales mediante atención multimodal, representando las emociones como distribuciones gaussianas independientes de la identidad. Segundo, introducimos un módulo de condicionamiento emocional mejorado con correlaciones, que utiliza Bancos de Emociones aprendibles para capturar explícitamente las relaciones inter-emocionales mediante cuantización vectorial y agregación de características basada en atención. Tercero, diseñamos un objetivo de discriminación emocional que refuerza la consistencia afectiva durante el proceso de difusión mediante clasificación en el espacio latente. Experimentos exhaustivos en los conjuntos de datos MEAD y HDTF demuestran la superioridad de nuestro método, superando a los enfoques más avanzados en precisión emocional mientras mantiene un rendimiento competitivo en sincronización labial. Los resultados cualitativos y los estudios de usuarios confirman además la capacidad de nuestro método para generar retratos que preservan la identidad con expresiones emocionales ricas y correlacionadas que se adaptan naturalmente a identidades no vistas.
English
Recent advances in Talking Head Generation (THG) have achieved impressive lip synchronization and visual quality through diffusion models; yet existing methods struggle to generate emotionally expressive portraits while preserving speaker identity. We identify three critical limitations in current emotional talking head generation: insufficient utilization of audio's inherent emotional cues, identity leakage in emotion representations, and isolated learning of emotion correlations. To address these challenges, we propose a novel framework dubbed as DICE-Talk, following the idea of disentangling identity with emotion, and then cooperating emotions with similar characteristics. First, we develop a disentangled emotion embedder that jointly models audio-visual emotional cues through cross-modal attention, representing emotions as identity-agnostic Gaussian distributions. Second, we introduce a correlation-enhanced emotion conditioning module with learnable Emotion Banks that explicitly capture inter-emotion relationships through vector quantization and attention-based feature aggregation. Third, we design an emotion discrimination objective that enforces affective consistency during the diffusion process through latent-space classification. Extensive experiments on MEAD and HDTF datasets demonstrate our method's superiority, outperforming state-of-the-art approaches in emotion accuracy while maintaining competitive lip-sync performance. Qualitative results and user studies further confirm our method's ability to generate identity-preserving portraits with rich, correlated emotional expressions that naturally adapt to unseen identities.

Summary

AI-Generated Summary

PDF31April 30, 2025