ChatPaper.aiChatPaper

FastVMT: 映像モーショントランスファーにおける冗長性の排除

FastVMT: Eliminating Redundancy in Video Motion Transfer

February 5, 2026
著者: Yue Ma, Zhikai Wang, Tianhao Ren, Mingzhe Zheng, Hongyu Liu, Jiayi Guo, Mark Fong, Yuxuan Xue, Zixiang Zhao, Konrad Schindler, Qifeng Chen, Linfeng Zhang
cs.AI

要旨

ビデオモーション転送は、参照ビデオで観察されたモーションパターンを転送しながら、テキストプロンプトに従って視覚コンテンツを生成することでビデオを合成することを目的としています。近年の手法は、Diffusion Transformer(DiT)アーキテクチャを主に採用しています。十分な実行速度を達成するため、いくつかの手法はDiT内の計算を加速しようと試みていますが、構造的な非効率性の根本原因に対処できていません。本研究では、従来研究に存在する2種類の計算の冗長性を特定し、排除します。モーションの冗長性は、一般的なDiTアーキテクチャが、フレーム間の動きが小さく滑らかであるという事実を反映していないために生じます。勾配の冗長性は、拡散軌道に沿って勾配がゆっくりと変化することを無視した場合に発生します。モーションの冗長性を軽減するため、対応するアテンション層を局所近傍にマスキングし、不必要に離れた画像領域間で相互作用の重みが計算されないようにします。勾配の冗長性を活用するため、過去の拡散ステップからの勾配を再利用し、不要な勾配計算をスキップする最適化手法を設計します。平均して、FastVMTは生成されるビデオの視覚的品質や時間的一貫性を劣化させることなく、3.43倍の高速化を実現します。
English
Video motion transfer aims to synthesize videos by generating visual content according to a text prompt while transferring the motion pattern observed in a reference video. Recent methods predominantly use the Diffusion Transformer (DiT) architecture. To achieve satisfactory runtime, several methods attempt to accelerate the computations in the DiT, but fail to address structural sources of inefficiency. In this work, we identify and remove two types of computational redundancy in earlier work: motion redundancy arises because the generic DiT architecture does not reflect the fact that frame-to-frame motion is small and smooth; gradient redundancy occurs if one ignores that gradients change slowly along the diffusion trajectory. To mitigate motion redundancy, we mask the corresponding attention layers to a local neighborhood such that interaction weights are not computed unnecessarily distant image regions. To exploit gradient redundancy, we design an optimization scheme that reuses gradients from previous diffusion steps and skips unwarranted gradient computations. On average, FastVMT achieves a 3.43x speedup without degrading the visual fidelity or the temporal consistency of the generated videos.
PDF12February 7, 2026