Transfert d'Émotion Intermodale pour l'Édition Émotionnelle dans les Vidéos de Visages Parlants

Résumé

La génération de visages parlants a gagné une attention considérable en tant qu'application centrale des modèles génératifs. Pour améliorer l'expressivité et le réalisme des vidéos synthétisées, l'édition des émotions dans les vidéos de visages parlants joue un rôle crucial. Cependant, les approches existantes limitent souvent la flexibilité expressive et peinent à générer des émotions étendues. Les méthodes basées sur des étiquettes représentent les émotions par des catégories discrètes, ce qui ne permet pas de capturer une large gamme d'émotions. Les méthodes basées sur l'audio peuvent exploiter les signaux vocaux riches en émotions - et même bénéficier de la synthèse vocale expressive - mais elles échouent à exprimer les émotions cibles car les émotions et les contenus linguistiques sont entremêlés dans les discours émotionnels. Les méthodes basées sur les images, quant à elles, s'appuient sur des images de référence cibles pour guider le transfert d'émotion, mais elles nécessitent des vues frontales de haute qualité et rencontrent des difficultés pour acquérir des données de référence pour les émotions étendues (par exemple, le sarcasme). Pour remédier à ces limitations, nous proposons le Transfert d'Émotion Cross-Modal (C-MET), une approche novatrice qui génère des expressions faciales à partir de discours en modélisant des vecteurs sémantiques d'émotion entre les espaces de caractéristiques vocales et visuelles. C-MET exploite un encodeur audio pré-entraîné à grande échelle et un encodeur d'expressions faciales désentrelacé pour apprendre des vecteurs sémantiques d'émotion qui représentent la différence entre deux plongements émotionnels différents à travers les modalités. Des expériences approfondies sur les ensembles de données MEAD et CREMA-D démontrent que notre méthode amène une amélioration de 14% de la précision émotionnelle par rapport aux méthodes de l'état de l'art, tout en générant des vidéos expressives de visages parlants - même pour des émotions étendues non vues. Le code, les points de contrôle et une démo sont disponibles à l'adresse https://chanhyeok-choi.github.io/C-MET/.

English

Talking face generation has gained significant attention as a core application of generative models. To enhance the expressiveness and realism of synthesized videos, emotion editing in talking face video plays a crucial role. However, existing approaches often limit expressive flexibility and struggle to generate extended emotions. Label-based methods represent emotions with discrete categories, which fail to capture a wide range of emotions. Audio-based methods can leverage emotionally rich speech signals - and even benefit from expressive text-to-speech (TTS) synthesis - but they fail to express the target emotions because emotions and linguistic contents are entangled in emotional speeches. Images-based methods, on the other hand, rely on target reference images to guide emotion transfer, yet they require high-quality frontal views and face challenges in acquiring reference data for extended emotions (e.g., sarcasm). To address these limitations, we propose Cross-Modal Emotion Transfer (C-MET), a novel approach that generates facial expressions based on speeches by modeling emotion semantic vectors between speech and visual feature spaces. C-MET leverages a large-scale pretrained audio encoder and a disentangled facial expression encoder to learn emotion semantic vectors that represent the difference between two different emotional embeddings across modalities. Extensive experiments on the MEAD and CREMA-D datasets demonstrate that our method improves emotion accuracy by 14% over state-of-the-art methods, while generating expressive talking face videos - even for unseen extended emotions. Code, checkpoint, and demo are available at https://chanhyeok-choi.github.io/C-MET/

Transfert d'Émotion Intermodale pour l'Édition Émotionnelle dans les Vidéos de Visages Parlants

Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video

Résumé

Support