RoPECraft: 拡散トランスフォーマーにおける軌道誘導型RoPE最適化を用いたトレーニング不要のモーショントランスファー
RoPECraft: Training-Free Motion Transfer with Trajectory-Guided RoPE Optimization on Diffusion Transformers
May 19, 2025
著者: Ahmet Berke Gokmen, Yigit Ekin, Bahri Batuhan Bilecen, Aysegul Dundar
cs.AI
要旨
我々は、拡散トランスフォーマー向けのトレーニング不要なビデオモーショントランスファー手法であるRoPECraftを提案する。この手法は、回転位置埋め込み(RoPE)を修正するだけで動作する。まず、参照ビデオから密なオプティカルフローを抽出し、その結果得られるモーションオフセットを利用してRoPEの複素指数テンソルをワープさせ、生成プロセスにモーションを効果的にエンコードする。これらの埋め込みは、フローマッチング目的関数を用いて、予測速度と目標速度の間の軌道アラインメントを通じて、ノイズ除去ステップ中にさらに最適化される。出力をテキストプロンプトに忠実に保ち、重複生成を防ぐために、参照ビデオのフーリエ変換の位相成分に基づく正則化項を組み込み、位相角を滑らかな多様体に投影して高周波アーティファクトを抑制する。ベンチマーク実験により、RoPECraftが最近発表されたすべての手法を質的および量的に上回ることが明らかになった。
English
We propose RoPECraft, a training-free video motion transfer method for
diffusion transformers that operates solely by modifying their rotary
positional embeddings (RoPE). We first extract dense optical flow from a
reference video, and utilize the resulting motion offsets to warp the
complex-exponential tensors of RoPE, effectively encoding motion into the
generation process. These embeddings are then further optimized during
denoising time steps via trajectory alignment between the predicted and target
velocities using a flow-matching objective. To keep the output faithful to the
text prompt and prevent duplicate generations, we incorporate a regularization
term based on the phase components of the reference video's Fourier transform,
projecting the phase angles onto a smooth manifold to suppress high-frequency
artifacts. Experiments on benchmarks reveal that RoPECraft outperforms all
recently published methods, both qualitatively and quantitatively.Summary
AI-Generated Summary