ChatPaper.aiChatPaper

EasyV2V:高品質な命令ベース動画編集フレームワーク

EasyV2V: A High-quality Instruction-based Video Editing Framework

December 18, 2025
著者: Jinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei
cs.AI

要旨

画像編集が急速に進歩する中、動画編集は未開拓の分野であり、一貫性、制御性、汎化性において課題に直面しています。本研究では、データ、アーキテクチャ、制御の設計空間を検討し、指示ベースの動画編集のための簡潔で効果的なフレームワークであるEasyV2Vを提案します。データ面では、既存の専門技術と高速逆変換を組み合わせて多様な動画ペアを構築し、単一フレーム監督と共有アフィン運動量を用いた擬似ペアにより画像編集ペアを動画に拡張し、高密度にキャプション付けされたクリップから動画ペアを抽出し、編集の遷移を教えるための遷移監督を追加しました。モデル面では、事前学習済みテキスト→動画モデルが編集能力を有することを確認し、簡素化された設計の動機付けとしました。軽量なLoRAファインチューニングと単純な系列連結による条件付けにより、強力なモデルを訓練できます。制御面では、単一マスク機構による時空間制御の統一と、オプションの参照画像サポートを実現しました。全体として、EasyV2Vは動画+テキスト、動画+マスク+テキスト、動画+マスク+参照画像+テキストなど柔軟な入力に対応し、最新の動画編集結果を達成し、同時期の研究や商用システムを凌駕します。プロジェクトページ: https://snap-research.github.io/easyv2v/
English
While image editing has advanced rapidly, video editing remains less explored, facing challenges in consistency, control, and generalization. We study the design space of data, architecture, and control, and introduce EasyV2V, a simple and effective framework for instruction-based video editing. On the data side, we compose existing experts with fast inverses to build diverse video pairs, lift image edit pairs into videos via single-frame supervision and pseudo pairs with shared affine motion, mine dense-captioned clips for video pairs, and add transition supervision to teach how edits unfold. On the model side, we observe that pretrained text-to-video models possess editing capability, motivating a simplified design. Simple sequence concatenation for conditioning with light LoRA fine-tuning suffices to train a strong model. For control, we unify spatiotemporal control via a single mask mechanism and support optional reference images. Overall, EasyV2V works with flexible inputs, e.g., video+text, video+mask+text, video+mask+reference+text, and achieves state-of-the-art video editing results, surpassing concurrent and commercial systems. Project page: https://snap-research.github.io/easyv2v/
PDF102December 20, 2025