Cross-modale Emotieoverdracht voor Emotiebewerking in Sprekend Gezicht Video

Samenvatting

Het genereren van pratende gezichten heeft aanzienlijke aandacht gekregen als een kernapplicatie van generatieve modellen. Om de expressiviteit en realisme van gesynthetiseerde video's te verbeteren, speelt emotiebewerking in video's van pratende gezichten een cruciale rol. Bestaande benaderingen beperken echter vaak de expressieve flexibiliteit en hebben moeite met het genereren van uitgebreide emoties. Labelgebaseerde methoden representeren emoties met discrete categorieën, die geen breed scala aan emoties kunnen vastleggen. Audiogebaseerde methoden kunnen gebruikmaken van emotierijke spraaksignalen - en zelfs profiteren van expressieve tekst-naar-spraak (TTS) synthese - maar zij slagen er niet in de doel-emoties uit te drukken omdat emoties en linguïstische inhoud verweven zijn in emotionele spraak. Op beelden gebaseerde methoden daarentegen, vertrouwen op doelreferentiebeelden om emotieoverdracht te sturen, maar zij vereisen hoogwaardige frontale aanzichten en ondervinden uitdagingen bij het verkrijgen van referentiedata voor uitgebreide emoties (bijvoorbeeld sarcasme). Om deze beperkingen aan te pakken, stellen wij Cross-Modale Emotie-Overdracht (C-MET) voor, een nieuwe aanpak die gezichtsuitdrukkingen genereert op basis van spraak door het modelleren van emotie-semantische vectoren tussen spraak- en visuele kenmerkruimten. C-MET benut een grootschalige vooraf getrainde audio-encoder en een ontvlochten encoder voor gezichtsuitdrukkingen om emotie-semantische vectoren te leren die het verschil representeren tussen twee verschillende emotionele inbeddingen across modaliteiten. Uitgebreide experimenten op de MEAD- en CREMA-D-datasets tonen aan dat onze methode de emotienauwkeurigheid met 14% verbetert ten opzichte van state-of-the-art methoden, terwijl expressieve video's van pratende gezichten worden gegenereerd - zelfs voor onzichtbare uitgebreide emoties. Code, checkpoint en demo zijn beschikbaar op https://chanhyeok-choi.github.io/C-MET/.

English

Talking face generation has gained significant attention as a core application of generative models. To enhance the expressiveness and realism of synthesized videos, emotion editing in talking face video plays a crucial role. However, existing approaches often limit expressive flexibility and struggle to generate extended emotions. Label-based methods represent emotions with discrete categories, which fail to capture a wide range of emotions. Audio-based methods can leverage emotionally rich speech signals - and even benefit from expressive text-to-speech (TTS) synthesis - but they fail to express the target emotions because emotions and linguistic contents are entangled in emotional speeches. Images-based methods, on the other hand, rely on target reference images to guide emotion transfer, yet they require high-quality frontal views and face challenges in acquiring reference data for extended emotions (e.g., sarcasm). To address these limitations, we propose Cross-Modal Emotion Transfer (C-MET), a novel approach that generates facial expressions based on speeches by modeling emotion semantic vectors between speech and visual feature spaces. C-MET leverages a large-scale pretrained audio encoder and a disentangled facial expression encoder to learn emotion semantic vectors that represent the difference between two different emotional embeddings across modalities. Extensive experiments on the MEAD and CREMA-D datasets demonstrate that our method improves emotion accuracy by 14% over state-of-the-art methods, while generating expressive talking face videos - even for unseen extended emotions. Code, checkpoint, and demo are available at https://chanhyeok-choi.github.io/C-MET/

Cross-modale Emotieoverdracht voor Emotiebewerking in Sprekend Gezicht Video

Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video

Samenvatting

Support