メモ:表現豊かな話し手ビデオ生成のためのメモリガイド拡散
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
December 5, 2024
著者: Longtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan
cs.AI
要旨
最近のビデオ拡散モデルの進歩により、リアルな音声駆動型の話すビデオ生成に新たな可能性が開かれました。ただし、シームレスな音声と口の同期、長期的なアイデンティティの一貫性の維持、生成された話すビデオでの自然で音声に合わせた表現の実現は、依然として重要な課題です。これらの課題に対処するために、私たちはMemory-guided EMOtion-aware diffusion(MEMO)を提案します。これは、エンドツーエンドの音声駆動の肖像アニメーションアプローチで、アイデンティティの一貫性と表現豊かな話すビデオを生成します。当社のアプローチは、2つの主要モジュールを中心に構築されています:(1)メモリガイドの時間モジュールは、線形注意を介して時間モデリングをガイドするために、長期的なアイデンティティの一貫性と動きの滑らかさを向上させるために、長い過去のコンテキストから情報を保存するメモリ状態を開発します。そして(2)感情認識オーディオモジュールは、伝統的なクロスアテンションをマルチモーダルアテンションに置き換え、音声から感情を検出して、感情適応的なレイヤーノームを介して表情を洗練させることで、オーディオとビデオの相互作用を向上させます。幅広い定量的および定性的結果は、MEMOが多様な画像と音声タイプにわたるよりリアルな話すビデオを生成し、全体的な品質、音声と口の同期、アイデンティティの一貫性、表現と感情の整合性において、最先端の手法を凌駕していることを示しています。
English
Recent advances in video diffusion models have unlocked new potential for
realistic audio-driven talking video generation. However, achieving seamless
audio-lip synchronization, maintaining long-term identity consistency, and
producing natural, audio-aligned expressions in generated talking videos remain
significant challenges. To address these challenges, we propose Memory-guided
EMOtion-aware diffusion (MEMO), an end-to-end audio-driven portrait animation
approach to generate identity-consistent and expressive talking videos. Our
approach is built around two key modules: (1) a memory-guided temporal module,
which enhances long-term identity consistency and motion smoothness by
developing memory states to store information from a longer past context to
guide temporal modeling via linear attention; and (2) an emotion-aware audio
module, which replaces traditional cross attention with multi-modal attention
to enhance audio-video interaction, while detecting emotions from audio to
refine facial expressions via emotion adaptive layer norm. Extensive
quantitative and qualitative results demonstrate that MEMO generates more
realistic talking videos across diverse image and audio types, outperforming
state-of-the-art methods in overall quality, audio-lip synchronization,
identity consistency, and expression-emotion alignment.Summary
AI-Generated Summary