Trasferimento Emotivo Cross-Modale per la Modifica delle Emozioni nei Video di Volto Parlante

Abstract

La generazione di volti parlanti ha ottenuto un'attenzione significativa come applicazione centrale dei modelli generativi. Per migliorare l'espressività e il realismo dei video sintetizzati, l'editing emotivo nei video di volti parlanti svolge un ruolo cruciale. Tuttavia, gli approcci esistenti spesso limitano la flessibilità espressiva e faticano a generare emozioni complesse. I metodi basati su etichette rappresentano le emozioni con categorie discrete, che non riescono a catturare un'ampia gamma di stati emotivi. I metodi basati sull'audio possono sfruttare segnali vocali emotivamente ricchi - e persino trarre vantaggio dalla sintesi vocale (TTS) espressiva - ma non riescono a esprimere le emozioni target poiché le emozioni e i contenuti linguistici sono intrecciati nei discorsi emotivi. I metodi basati su immagini, d'altro canto, si affidano a immagini di riferimento target per guidare il trasferimento emotivo, ma richiedono viste frontali di alta qualità e incontrano difficoltà nell'acquisire dati di riferimento per emozioni complesse (ad esempio, il sarcasmo). Per affrontare queste limitazioni, proponiamo il Cross-Modal Emotion Transfer (C-MET), un approccio innovativo che genera espressioni facciali basate sui discorsi modellando vettori semantici emotivi tra gli spazi delle caratteristiche vocali e visive. C-MET sfrutta un encoder audio pre-addestrato su larga scala e un encoder delle espressioni facciali disaccoppiato per apprendere vettori semantici emotivi che rappresentano la differenza tra due diversi incorporamenti emotivi attraverso le modalità. Esperimenti estesi sui dataset MEAD e CREMA-D dimostrano che il nostro metodo migliora l'accuratezza emotiva del 14% rispetto ai metodi all'avanguardia, generando al contempo video espressivi di volti parlanti - anche per emozioni complesse non viste durante l'addestramento. Codice, checkpoint e demo sono disponibili al sito https://chanhyeok-choi.github.io/C-MET/.

English

Talking face generation has gained significant attention as a core application of generative models. To enhance the expressiveness and realism of synthesized videos, emotion editing in talking face video plays a crucial role. However, existing approaches often limit expressive flexibility and struggle to generate extended emotions. Label-based methods represent emotions with discrete categories, which fail to capture a wide range of emotions. Audio-based methods can leverage emotionally rich speech signals - and even benefit from expressive text-to-speech (TTS) synthesis - but they fail to express the target emotions because emotions and linguistic contents are entangled in emotional speeches. Images-based methods, on the other hand, rely on target reference images to guide emotion transfer, yet they require high-quality frontal views and face challenges in acquiring reference data for extended emotions (e.g., sarcasm). To address these limitations, we propose Cross-Modal Emotion Transfer (C-MET), a novel approach that generates facial expressions based on speeches by modeling emotion semantic vectors between speech and visual feature spaces. C-MET leverages a large-scale pretrained audio encoder and a disentangled facial expression encoder to learn emotion semantic vectors that represent the difference between two different emotional embeddings across modalities. Extensive experiments on the MEAD and CREMA-D datasets demonstrate that our method improves emotion accuracy by 14% over state-of-the-art methods, while generating expressive talking face videos - even for unseen extended emotions. Code, checkpoint, and demo are available at https://chanhyeok-choi.github.io/C-MET/

Trasferimento Emotivo Cross-Modale per la Modifica delle Emozioni nei Video di Volto Parlante

Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video

Abstract

Support