拡散トランスフォーマーを用いたビデオモーション転送
Video Motion Transfer with Diffusion Transformers
December 10, 2024
著者: Alexander Pondaven, Aliaksandr Siarohin, Sergey Tulyakov, Philip Torr, Fabio Pizzati
cs.AI
要旨
私たちは、Diffusion Transformers(DiT)に特化した、新しく合成された動画に参照動画の動きを転送するための手法であるDiTFlowを提案します。最初に、事前にトレーニングされたDiTを使用して参照動画を処理し、クロスフレームの注意マップを分析し、Attention Motion Flow(AMF)と呼ばれるパッチ単位の動き信号を抽出します。我々は、最適化ベースでトレーニング不要の方法で、我々のAMF損失を最適化して潜在的なノイズ除去プロセスをガイドし、参照動画の動きを再現する動画を生成します。また、我々の最適化戦略をトランスフォーマーの位置エンベッディングに適用し、ゼロショットの動き転送能力を向上させます。我々は、DiTFlowを最近発表された手法と比較し、複数の指標と人間の評価ですべてを上回る性能を発揮します。
English
We propose DiTFlow, a method for transferring the motion of a reference video
to a newly synthesized one, designed specifically for Diffusion Transformers
(DiT). We first process the reference video with a pre-trained DiT to analyze
cross-frame attention maps and extract a patch-wise motion signal called the
Attention Motion Flow (AMF). We guide the latent denoising process in an
optimization-based, training-free, manner by optimizing latents with our AMF
loss to generate videos reproducing the motion of the reference one. We also
apply our optimization strategy to transformer positional embeddings, granting
us a boost in zero-shot motion transfer capabilities. We evaluate DiTFlow
against recently published methods, outperforming all across multiple metrics
and human evaluation.Summary
AI-Generated Summary