Transferencia de Emoción Intermodal para la Edición de Emociones en Videos de Rostros Parlantes
Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video
April 9, 2026
Autores: Chanhyuk Choi, Taesoo Kim, Donggyu Lee, Siyeol Jung, Taehwan Kim
cs.AI
Resumen
La generación de rostros parlantes ha adquirido una atención significativa como aplicación fundamental de los modelos generativos. Para mejorar la expresividad y el realismo de los vídeos sintetizados, la edición de emociones en el vídeo de rostros parlantes desempeña un papel crucial. Sin embargo, los enfoques existentes suelen limitar la flexibilidad expresiva y presentan dificultades para generar emociones extendidas. Los métodos basados en etiquetas representan las emociones con categorías discretas, que no logran capturar una amplia gama de estados emocionales. Los métodos basados en audio pueden aprovechar las señales de voz ricas en contenido emocional —e incluso beneficiarse de la síntesis de voz expresiva (TTS)—, pero no consiguen expresar las emociones objetivo porque los contenidos emocionales y lingüísticos están entrelazados en el habla emocional. Por otro lado, los métodos basados en imágenes dependen de imágenes de referencia objetivo para guiar la transferencia de emociones, aunque requieren vistas frontales de alta calidad y se enfrentan a desafíos para obtener datos de referencia para emociones extendidas (por ejemplo, el sarcasmo). Para abordar estas limitaciones, proponemos Transferencia de Emociones Cross-Modal (C-MET), un enfoque novedoso que genera expresiones faciales a partir del habla modelando vectores semánticos de emoción entre los espacios de características del habla y visuales. C-MET aprovecha un codificador de audio preentrenado a gran escala y un codificador de expresiones faciales desentrelazado para aprender vectores semánticos de emoción que representan la diferencia entre dos incrustaciones emocionales diferentes a través de modalidades. Experimentos exhaustivos en los conjuntos de datos MEAD y CREMA-D demuestran que nuestro método mejora la precisión emocional en un 14% respecto a los métodos state-of-the-art, al tiempo que genera vídeos expresivos de rostros parlantes, incluso para emociones extendidas no vistas. El código, los puntos de control y la demostración están disponibles en https://chanhyeok-choi.github.io/C-MET/.
English
Talking face generation has gained significant attention as a core application of generative models. To enhance the expressiveness and realism of synthesized videos, emotion editing in talking face video plays a crucial role. However, existing approaches often limit expressive flexibility and struggle to generate extended emotions. Label-based methods represent emotions with discrete categories, which fail to capture a wide range of emotions. Audio-based methods can leverage emotionally rich speech signals - and even benefit from expressive text-to-speech (TTS) synthesis - but they fail to express the target emotions because emotions and linguistic contents are entangled in emotional speeches. Images-based methods, on the other hand, rely on target reference images to guide emotion transfer, yet they require high-quality frontal views and face challenges in acquiring reference data for extended emotions (e.g., sarcasm). To address these limitations, we propose Cross-Modal Emotion Transfer (C-MET), a novel approach that generates facial expressions based on speeches by modeling emotion semantic vectors between speech and visual feature spaces. C-MET leverages a large-scale pretrained audio encoder and a disentangled facial expression encoder to learn emotion semantic vectors that represent the difference between two different emotional embeddings across modalities. Extensive experiments on the MEAD and CREMA-D datasets demonstrate that our method improves emotion accuracy by 14% over state-of-the-art methods, while generating expressive talking face videos - even for unseen extended emotions. Code, checkpoint, and demo are available at https://chanhyeok-choi.github.io/C-MET/