話し顔ビデオにおける感情編集のためのクロスモーダル感情転移
Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video
April 9, 2026
著者: Chanhyuk Choi, Taesoo Kim, Donggyu Lee, Siyeol Jung, Taehwan Kim
cs.AI
要旨
話し手顔生成は、生成モデルの核心的な応用分野として大きな注目を集めている。合成動画の表現力とリアリズムを高める上で、話し手顔動画における感情編集は極めて重要な役割を果たす。しかし、既存の手法では表現の柔軟性が制限されがちで、持続的な感情の生成に課題を抱えている。ラベルベースの手法は感情を離散的なカテゴリで表現するため、多様な感情の幅を十分に捉えられない。音声ベースの手法は感情豊かな音声信号を活用でき、表現力豊かなテキスト音声合成(TTS)の利点も得られるが、感情と言語内容が感情音声内で混在するため、目標感情を正確に表現できない。一方、画像ベースの手法は感情転写を導くための目標参照画像に依存するが、高品質な正面顔画像を必要とし、持続的感情(例:皮肉)に対する参照データの取得に課題を抱える。これらの課題を解決するため、本研究では音声と視覚特徴空間間の感情意味ベクトルをモデル化することで、音声に基づいた facial expression を生成する新規手法 Cross-Modal Emotion Transfer (C-MET) を提案する。C-METは大規模事前学習済み音声エンコーダと分離型 facial expression エンコーダを活用し、異なるモダリティ間の2つの感情埋め込み表現の差を表す感情意味ベクトルを学習する。MEADおよびCREMA-Dデータセットを用いた大規模な実験により、本手法が既存の最先端手法よりも感情精度で14%向上し、未学習の持続的感情に対しても表現豊かな話し手顔動画を生成できることを実証する。コード、チェックポイント、デモはhttps://chanhyeok-choi.github.io/C-MET/で公開されている。
English
Talking face generation has gained significant attention as a core application of generative models. To enhance the expressiveness and realism of synthesized videos, emotion editing in talking face video plays a crucial role. However, existing approaches often limit expressive flexibility and struggle to generate extended emotions. Label-based methods represent emotions with discrete categories, which fail to capture a wide range of emotions. Audio-based methods can leverage emotionally rich speech signals - and even benefit from expressive text-to-speech (TTS) synthesis - but they fail to express the target emotions because emotions and linguistic contents are entangled in emotional speeches. Images-based methods, on the other hand, rely on target reference images to guide emotion transfer, yet they require high-quality frontal views and face challenges in acquiring reference data for extended emotions (e.g., sarcasm). To address these limitations, we propose Cross-Modal Emotion Transfer (C-MET), a novel approach that generates facial expressions based on speeches by modeling emotion semantic vectors between speech and visual feature spaces. C-MET leverages a large-scale pretrained audio encoder and a disentangled facial expression encoder to learn emotion semantic vectors that represent the difference between two different emotional embeddings across modalities. Extensive experiments on the MEAD and CREMA-D datasets demonstrate that our method improves emotion accuracy by 14% over state-of-the-art methods, while generating expressive talking face videos - even for unseen extended emotions. Code, checkpoint, and demo are available at https://chanhyeok-choi.github.io/C-MET/