ChatPaper.aiChatPaper

X-Dyna: 表現豊かなダイナミックな人間画像アニメーション

X-Dyna: Expressive Dynamic Human Image Animation

January 17, 2025
著者: Di Chang, Hongyi Xu, You Xie, Yipeng Gao, Zhengfei Kuang, Shengqu Cai, Chenxu Zhang, Guoxian Song, Chao Wang, Yichun Shi, Zeyuan Chen, Shijie Zhou, Linjie Luo, Gordon Wetzstein, Mohammad Soleymani
cs.AI

要旨

X-Dynaという新しいゼロショット、拡散ベースのパイプラインを紹介します。このパイプラインは、単一の人物画像をアニメーション化するために、ドライビングビデオから導かれた表情や身体の動きを使用し、被写体と周囲の環境のリアルでコンテキストに応じたダイナミクスを生成します。人間のポーズ制御を中心とした従来のアプローチを基にして、X-Dynaは、ダイナミックな詳細の損失を引き起こす主要な欠点に対処し、人間のビデオアニメーションのリアルな特性を向上させます。当アプローチの中核には、Dynamics-Adapterという軽量モジュールがあり、拡散バックボーンの空間的な注意に参照外観コンテキストを効果的に統合するとともに、モーションモジュールの容量を保持し、流体的で複雑なダイナミックな詳細を合成します。身体のポーズ制御に加えて、ローカル制御モジュールをモデルに接続して、アイデンティティを分離した表情を捉え、アニメーション化されたシーンのリアリズムを向上させるための正確な表情転送を容易にします。これらのコンポーネントは、多様な人間とシーンのビデオから物理的な人間の動きと自然なシーンのダイナミクスを学習できる統一されたフレームワークを形成します。包括的な定性的および定量的評価により、X-Dynaが最先端の手法を凌駕し、非常にリアルで表現豊かなアニメーションを作成することが示されています。コードはhttps://github.com/bytedance/X-Dynaで入手可能です。
English
We introduce X-Dyna, a novel zero-shot, diffusion-based pipeline for animating a single human image using facial expressions and body movements derived from a driving video, that generates realistic, context-aware dynamics for both the subject and the surrounding environment. Building on prior approaches centered on human pose control, X-Dyna addresses key shortcomings causing the loss of dynamic details, enhancing the lifelike qualities of human video animations. At the core of our approach is the Dynamics-Adapter, a lightweight module that effectively integrates reference appearance context into the spatial attentions of the diffusion backbone while preserving the capacity of motion modules in synthesizing fluid and intricate dynamic details. Beyond body pose control, we connect a local control module with our model to capture identity-disentangled facial expressions, facilitating accurate expression transfer for enhanced realism in animated scenes. Together, these components form a unified framework capable of learning physical human motion and natural scene dynamics from a diverse blend of human and scene videos. Comprehensive qualitative and quantitative evaluations demonstrate that X-Dyna outperforms state-of-the-art methods, creating highly lifelike and expressive animations. The code is available at https://github.com/bytedance/X-Dyna.

Summary

AI-Generated Summary

PDF142January 20, 2025