Animate-X: 強化されたモーション表現を備えた汎用キャラクター画像アニメーションAnimate-X: Universal Character Image Animation with Enhanced Motion
Representation
最近、高品質なビデオをリファレンス画像とターゲットポーズシーケンスから生成するキャラクター画像アニメーションは、著しい進歩を遂げています。しかしながら、ほとんどの既存手法は人物像にのみ適用され、一般的にゲームやエンターテイメント業界で使用される人型キャラクターには適用しにくい傾向があります。当該制限の原因は、動きのモデリングが不十分であり、駆動ビデオの動きパターンを理解できず、従ってポーズシーケンスをターゲットキャラクターに硬直してしまうことにあると、私たちの詳細な分析は示唆しています。この論文では、これに対処するために、人型キャラクターを含むさまざまなキャラクタータイプ(総称してXと呼ぶ)に対応する、LDMに基づく汎用アニメーションフレームワークであるAnimate-Xを提案します。動き表現を向上させるために、駆動ビデオから包括的な動きパターンを捉えるPose Indicatorを導入します。前者は、駆動ビデオのCLIPビジュアル特徴を活用して、全体的な動きパターンや動き間の時間的関係など、その動きの要点を抽出します。一方、後者は、推論中に発生する可能性のある入力を事前にシミュレートすることで、LDMの汎化を強化します。さらに、汎用的かつ広く適用可能なアニメーション画像に対するAnimate-Xの性能を評価するために、新しいAnimated Anthropomorphic Benchmark(A^2Bench)を導入します。幅広い実験により、Animate-Xの優位性と効果が、最先端の手法と比較して示されました。