アイデンティティの分離と感情の協調:相関を考慮した感情表現を伴う話し手ポートレート生成
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation
April 25, 2025
著者: Weipeng Tan, Chuming Lin, Chengming Xu, FeiFan Xu, Xiaobin Hu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu
cs.AI
要旨
最近のTalking Head Generation(THG)の進展により、拡散モデルを通じて印象的なリップシンクロナイゼーションと視覚的品質が達成されてきた。しかし、既存の手法は、話者のアイデンティティを保ちつつ感情豊かなポートレートを生成する点で課題を抱えている。現在の感情的なTalking Head Generationには、音声の持つ感情的な手がかりの不十分な活用、感情表現におけるアイデンティティの漏洩、感情間の相関関係の孤立した学習という3つの重要な限界がある。これらの課題に対処するため、我々はDICE-Talkと名付けた新しいフレームワークを提案する。このフレームワークは、アイデンティティと感情を分離し、類似した特性を持つ感情を協調させるという考えに基づいている。まず、クロスモーダルアテンションを通じて音声と視覚の感情的な手がかりを共同でモデル化し、感情をアイデンティティに依存しないガウス分布として表現する分離型感情エンベッダーを開発した。次に、ベクトル量子化とアテンションベースの特徴集約を通じて感情間の関係を明示的に捉える学習可能なEmotion Banksを備えた相関強化型感情条件付けモジュールを導入した。さらに、潜在空間分類を通じて拡散プロセス中の感情的一貫性を強化する感情識別目的関数を設計した。MEADおよびHDTFデータセットでの大規模な実験により、我々の手法が感情精度において最先端のアプローチを上回り、競争力のあるリップシンク性能を維持する優位性が示された。定性的な結果とユーザスタディは、未見のアイデンティティに自然に適応する、アイデンティティを保持した豊かで相関のある感情表現を生成する我々の手法の能力をさらに裏付けた。
English
Recent advances in Talking Head Generation (THG) have achieved impressive lip
synchronization and visual quality through diffusion models; yet existing
methods struggle to generate emotionally expressive portraits while preserving
speaker identity. We identify three critical limitations in current emotional
talking head generation: insufficient utilization of audio's inherent emotional
cues, identity leakage in emotion representations, and isolated learning of
emotion correlations. To address these challenges, we propose a novel framework
dubbed as DICE-Talk, following the idea of disentangling identity with emotion,
and then cooperating emotions with similar characteristics. First, we develop a
disentangled emotion embedder that jointly models audio-visual emotional cues
through cross-modal attention, representing emotions as identity-agnostic
Gaussian distributions. Second, we introduce a correlation-enhanced emotion
conditioning module with learnable Emotion Banks that explicitly capture
inter-emotion relationships through vector quantization and attention-based
feature aggregation. Third, we design an emotion discrimination objective that
enforces affective consistency during the diffusion process through
latent-space classification. Extensive experiments on MEAD and HDTF datasets
demonstrate our method's superiority, outperforming state-of-the-art approaches
in emotion accuracy while maintaining competitive lip-sync performance.
Qualitative results and user studies further confirm our method's ability to
generate identity-preserving portraits with rich, correlated emotional
expressions that naturally adapt to unseen identities.Summary
AI-Generated Summary