ViFeEdit: ビデオ拡散Transformerのためのビデオフリーチューナー
ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer
March 16, 2026
著者: Ruonan Yu, Zhenxiong Tan, Zigeng Chen, Songhua Liu, Xinchao Wang
cs.AI
要旨
拡散トランスフォーマー(DiT)は、画像および動画生成において顕著なスケーラビリティと高品質を実証し、制御可能な生成や編集タスクへの拡張に対する関心が高まっている。しかし、画像分野と比較して、動画の制御と編集の進展は限定的である。これは主に、ペアとなる動画データの不足と、動画拡散モデルの学習に必要な計算コストの高さに起因する。この問題に対処するため、本論文では動画拡散トランスフォーマー向けに、動画データを必要としないチューニングフレームワーク「ViFeEdit」を提案する。ViFeEditは、いかなる形式の動画学習データも必要とせず、2D画像のみで適応させることで、多様な動画生成と編集を実現する。本手法の核心は、現代の動画拡散トランスフォーマーにおける完全な3Dアテンションから空間的独立性を分離するアーキテクチャの再パラメータ化にある。これにより、視覚的に忠実な編集を実現しつつ、最小限の追加パラメータのみで時間的一貫性を維持する。さらに、この設計は、ノイズスケジューリングのために独立したタイムステップ埋め込みを持つデュアルパイプラインパイプラインで動作し、多様な条件付け信号に対して強い適応性を示す。大規模な実験により、本手法が2D画像データによる最小限の学習のみで、制御可能な動画生成と編集において有望な結果をもたらすことが実証された。コードはhttps://github.com/Lexie-YU/ViFeEdit で公開されている。
English
Diffusion Transformers (DiTs) have demonstrated remarkable scalability and quality in image and video generation, prompting growing interest in extending them to controllable generation and editing tasks. However, compared to the image counterparts, progress in video control and editing remains limited, mainly due to the scarcity of paired video data and the high computational cost of training video diffusion models. To address this issue, in this paper, we propose a video-free tuning framework termed ViFeEdit for video diffusion transformers. Without requiring any forms of video training data, ViFeEdit achieves versatile video generation and editing, adapted solely with 2D images. At the core of our approach is an architectural reparameterization that decouples spatial independence from the full 3D attention in modern video diffusion transformers, which enables visually faithful editing while maintaining temporal consistency with only minimal additional parameters. Moreover, this design operates in a dual-path pipeline with separate timestep embeddings for noise scheduling, exhibiting strong adaptability to diverse conditioning signals. Extensive experiments demonstrate that our method delivers promising results of controllable video generation and editing with only minimal training on 2D image data. Codes are available https://github.com/Lexie-YU/ViFeEdit.