MTV-Inpaint: マルチタスク長尺動画修復
MTV-Inpaint: Multi-Task Long Video Inpainting
March 14, 2025
著者: Shiyuan Yang, Zheng Gu, Liang Hou, Xin Tao, Pengfei Wan, Xiaodong Chen, Jing Liao
cs.AI
要旨
ビデオインペインティングは、ビデオ内の局所領域を修正し、空間的および時間的な一貫性を保つことを含みます。既存の手法の多くは、主にシーン補完(つまり、欠落領域の埋め戻し)に焦点を当てており、新しいオブジェクトを制御可能な方法でシーンに挿入する能力を欠いています。幸いなことに、最近のテキストからビデオ(T2V)拡散モデルの進展により、テキストガイド付きのビデオインペインティングが可能になりました。しかし、T2Vモデルを直接インペインティングに適用することは、補完と挿入タスクを統合する点で限界があり、入力の制御性が低く、長いビデオに対応するのが難しいため、その適用性と柔軟性が制限されています。これらの課題に対処するため、我々はMTV-Inpaintを提案します。これは、従来のシーン補完と新しいオブジェクト挿入タスクの両方を扱える統一されたマルチタスクビデオインペインティングフレームワークです。これらの異なるタスクを統合するために、T2V拡散U-Net内にデュアルブランチ空間注意メカニズムを設計し、シーン補完とオブジェクト挿入を単一のフレームワーク内でシームレスに統合します。テキストガイドに加えて、MTV-Inpaintは、提案された画像からビデオ(I2V)インペインティングモードを通じて、さまざまな画像インペインティングモデルを統合することで、マルチモーダル制御をサポートします。さらに、キーフレームインペインティングと中間フレーム伝播を組み合わせた2段階パイプラインを提案し、MTV-Inpaintが数百フレームの長いビデオを効果的に処理できるようにします。広範な実験により、MTV-Inpaintがシーン補完とオブジェクト挿入タスクの両方で最先端の性能を達成することが示されています。さらに、マルチモーダルインペインティング、オブジェクト編集、削除、画像オブジェクトブラシ、長いビデオの処理能力など、派生アプリケーションでの汎用性も実証されています。プロジェクトページ: https://mtv-inpaint.github.io/.
English
Video inpainting involves modifying local regions within a video, ensuring
spatial and temporal consistency. Most existing methods focus primarily on
scene completion (i.e., filling missing regions) and lack the capability to
insert new objects into a scene in a controllable manner. Fortunately, recent
advancements in text-to-video (T2V) diffusion models pave the way for
text-guided video inpainting. However, directly adapting T2V models for
inpainting remains limited in unifying completion and insertion tasks, lacks
input controllability, and struggles with long videos, thereby restricting
their applicability and flexibility. To address these challenges, we propose
MTV-Inpaint, a unified multi-task video inpainting framework capable of
handling both traditional scene completion and novel object insertion tasks. To
unify these distinct tasks, we design a dual-branch spatial attention mechanism
in the T2V diffusion U-Net, enabling seamless integration of scene completion
and object insertion within a single framework. In addition to textual
guidance, MTV-Inpaint supports multimodal control by integrating various image
inpainting models through our proposed image-to-video (I2V) inpainting mode.
Additionally, we propose a two-stage pipeline that combines keyframe inpainting
with in-between frame propagation, enabling MTV-Inpaint to effectively handle
long videos with hundreds of frames. Extensive experiments demonstrate that
MTV-Inpaint achieves state-of-the-art performance in both scene completion and
object insertion tasks. Furthermore, it demonstrates versatility in derived
applications such as multi-modal inpainting, object editing, removal, image
object brush, and the ability to handle long videos. Project page:
https://mtv-inpaint.github.io/.Summary
AI-Generated Summary