Cross-Modale Emotionsübertragung zur Emotionsbearbeitung in sprechenden Gesichtsvideos

Zusammenfassung

Die Generierung sprechender Gesichter hat als Kernanwendung generativer Modelle erheblich an Aufmerksamkeit gewonnen. Um die Ausdruckskraft und den Realismus synthetisierter Videos zu verbessern, spielt die Emotionsbearbeitung in Videos sprechender Gesichter eine entscheidende Rolle. Bestehende Ansätze schränken jedoch oft die Ausdrucksflexibilität ein und haben Schwierigkeiten, erweiterte Emotionen zu generieren. Label-basierte Methoden repräsentieren Emotionen durch diskrete Kategorien, die keine breite Palette von Emotionen erfassen können. Audio-basierte Methoden können emotional reiche Sprachsignale nutzen – und sogar von expressiver Text-zu-Sprache-Synthese (TTS) profitieren – aber sie scheitern daran, die Zielgefühle auszudrücken, da Emotionen und linguistische Inhalte in emotionalen Sprachaufnahmen vermischt sind. Bild-basierte Methoden hingegen stützen sich auf Zielreferenzbilder, um den Emotionstransfer zu steuern, benötigen jedoch hochwertige Frontalaufnahmen und stehen vor Herausforderungen bei der Beschaffung von Referenzdaten für erweiterte Emotionen (z.B. Sarkasmus). Um diese Einschränkungen zu überwinden, schlagen wir Cross-Modal Emotion Transfer (C-MET) vor, einen neuartigen Ansatz, der Gesichtsausdrücke auf der Grundlage von Sprachaufnahmen generiert, indem emotionssemantische Vektoren zwischen Sprach- und visuellen Merkmalsräumen modelliert werden. C-MET nutzt einen groß angelegten vortrainierten Audio-Encoder und einen entflochtenen Gesichtsausdrucks-Encoder, um emotionssemantische Vektoren zu erlernen, die den Unterschied zwischen zwei verschiedenen emotionalen Einbettungen über Modalitäten hinweg repräsentieren. Umfangreiche Experimente mit den MEAD- und CREMA-D-Datensätzen zeigen, dass unsere Methode die Emotionsgenauigkeit um 14 % gegenüber state-of-the-art Methoden verbessert und dabei ausdrucksstarke Videos sprechender Gesichter erzeugt – selbst für ungesehene erweiterte Emotionen. Code, Checkpoint und Demo sind verfügbar unter https://chanhyeok-choi.github.io/C-MET/.

English

Talking face generation has gained significant attention as a core application of generative models. To enhance the expressiveness and realism of synthesized videos, emotion editing in talking face video plays a crucial role. However, existing approaches often limit expressive flexibility and struggle to generate extended emotions. Label-based methods represent emotions with discrete categories, which fail to capture a wide range of emotions. Audio-based methods can leverage emotionally rich speech signals - and even benefit from expressive text-to-speech (TTS) synthesis - but they fail to express the target emotions because emotions and linguistic contents are entangled in emotional speeches. Images-based methods, on the other hand, rely on target reference images to guide emotion transfer, yet they require high-quality frontal views and face challenges in acquiring reference data for extended emotions (e.g., sarcasm). To address these limitations, we propose Cross-Modal Emotion Transfer (C-MET), a novel approach that generates facial expressions based on speeches by modeling emotion semantic vectors between speech and visual feature spaces. C-MET leverages a large-scale pretrained audio encoder and a disentangled facial expression encoder to learn emotion semantic vectors that represent the difference between two different emotional embeddings across modalities. Extensive experiments on the MEAD and CREMA-D datasets demonstrate that our method improves emotion accuracy by 14% over state-of-the-art methods, while generating expressive talking face videos - even for unseen extended emotions. Code, checkpoint, and demo are available at https://chanhyeok-choi.github.io/C-MET/

Cross-Modale Emotionsübertragung zur Emotionsbearbeitung in sprechenden Gesichtsvideos

Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video

Zusammenfassung

Support