FantasyTalking:コヒーレントなモーション合成によるリアルなトーキングポートレート生成
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis
April 7, 2025
著者: Mengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu
cs.AI
要旨
単一の静止ポートレートから現実的なアニメーション可能なアバターを作成することは、依然として困難な課題です。既存の手法では、微妙な表情、関連する全身の動き、そして動的な背景を捉えることに苦戦しています。これらの制限を解決するため、我々は事前学習済みのビデオ拡散トランスフォーマーモデルを活用し、高精細で一貫性のある、制御可能なモーションダイナミクスを備えたトーキングポートレートを生成する新しいフレームワークを提案します。我々の研究の中核となるのは、二段階のオーディオビジュアルアライメント戦略です。第一段階では、クリップレベルのトレーニングスキームを用いて、参照ポートレート、文脈オブジェクト、背景を含むシーン全体のオーディオ駆動ダイナミクスを整列させ、一貫したグローバルモーションを確立します。第二段階では、リップトレーシングマスクを使用してフレームレベルで唇の動きを洗練し、オーディオ信号との正確な同期を保証します。モーションの柔軟性を損なうことなくアイデンティティを保持するため、一般的に使用される参照ネットワークを、ビデオ全体で顔の一貫性を効果的に維持する顔フォーカスクロスアテンションモジュールに置き換えます。さらに、表情と身体の動きの強度を明示的に制御するモーション強度変調モジュールを統合し、単なる唇の動きを超えたポートレートの動きの制御可能な操作を実現します。広範な実験結果は、提案手法がより高い品質、リアリズム、一貫性、モーション強度、およびアイデンティティの保持を達成することを示しています。プロジェクトページはこちら:https://fantasy-amap.github.io/fantasy-talking/。
English
Creating a realistic animatable avatar from a single static portrait remains
challenging. Existing approaches often struggle to capture subtle facial
expressions, the associated global body movements, and the dynamic background.
To address these limitations, we propose a novel framework that leverages a
pretrained video diffusion transformer model to generate high-fidelity,
coherent talking portraits with controllable motion dynamics. At the core of
our work is a dual-stage audio-visual alignment strategy. In the first stage,
we employ a clip-level training scheme to establish coherent global motion by
aligning audio-driven dynamics across the entire scene, including the reference
portrait, contextual objects, and background. In the second stage, we refine
lip movements at the frame level using a lip-tracing mask, ensuring precise
synchronization with audio signals. To preserve identity without compromising
motion flexibility, we replace the commonly used reference network with a
facial-focused cross-attention module that effectively maintains facial
consistency throughout the video. Furthermore, we integrate a motion intensity
modulation module that explicitly controls expression and body motion
intensity, enabling controllable manipulation of portrait movements beyond mere
lip motion. Extensive experimental results show that our proposed approach
achieves higher quality with better realism, coherence, motion intensity, and
identity preservation. Ours project page:
https://fantasy-amap.github.io/fantasy-talking/.Summary
AI-Generated Summary