VideoPainter: プラグアンドプレイのコンテキスト制御による任意長のビデオインペインティングと編集
VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control
March 7, 2025
著者: Yuxuan Bian, Zhaoyang Zhang, Xuan Ju, Mingdeng Cao, Liangbin Xie, Ying Shan, Qiang Xu
cs.AI
要旨
ビデオインペインティングは、破損したビデオコンテンツを修復することを目的としており、大きな進展を遂げてきました。しかしながら、既存の手法は、オプティカルフローや受容野の事前情報を通じてマスクされていない領域のピクセルを伝播させる方法や、画像インペインティングモデルを時間的に拡張する方法など、完全にマスクされたオブジェクトの生成や、背景の文脈保存と前景生成という競合する目的を一つのモデルでバランスよく達成することに課題を抱えています。これらの制約を解決するため、我々は新しいデュアルストリームパラダイムであるVideoPainterを提案します。このモデルは、効率的なコンテキストエンコーダ(バックボーンパラメータのわずか6%を占める)を組み込み、マスクされたビデオを処理し、事前学習済みのビデオDiTにバックボーンを意識した背景文脈の手がかりを注入することで、プラグアンドプレイ方式で意味的に一貫したコンテンツを生成します。このアーキテクチャの分離により、モデルの学習複雑性が大幅に削減されつつ、重要な背景文脈の微妙な統合が可能になります。また、任意の長さのビデオインペインティングを可能にする新しいターゲット領域IDリサンプリング技術を導入し、実用性を大幅に向上させました。さらに、現在の視覚理解モデルを活用したスケーラブルなデータセットパイプラインを確立し、セグメンテーションベースのインペインティングトレーニングと評価を促進するためにVPDataとVPBenchを提供します。これらは、39万以上の多様なクリップを含む、これまでで最大のビデオインペインティングデータセットとベンチマークです。インペインティングをパイプラインの基盤として、ビデオ編集やビデオ編集ペアデータ生成などの下流アプリケーションも探索し、競争力のある性能と大きな実用可能性を示しています。広範な実験により、VideoPainterがビデオ品質、マスク領域の保存、テキストの一貫性など、8つの主要な指標において、任意の長さのビデオインペインティングと編集の両方で優れた性能を発揮することが実証されました。
English
Video inpainting, which aims to restore corrupted video content, has
experienced substantial progress. Despite these advances, existing methods,
whether propagating unmasked region pixels through optical flow and receptive
field priors, or extending image-inpainting models temporally, face challenges
in generating fully masked objects or balancing the competing objectives of
background context preservation and foreground generation in one model,
respectively. To address these limitations, we propose a novel dual-stream
paradigm VideoPainter that incorporates an efficient context encoder
(comprising only 6% of the backbone parameters) to process masked videos and
inject backbone-aware background contextual cues to any pre-trained video DiT,
producing semantically consistent content in a plug-and-play manner. This
architectural separation significantly reduces the model's learning complexity
while enabling nuanced integration of crucial background context. We also
introduce a novel target region ID resampling technique that enables any-length
video inpainting, greatly enhancing our practical applicability. Additionally,
we establish a scalable dataset pipeline leveraging current vision
understanding models, contributing VPData and VPBench to facilitate
segmentation-based inpainting training and assessment, the largest video
inpainting dataset and benchmark to date with over 390K diverse clips. Using
inpainting as a pipeline basis, we also explore downstream applications
including video editing and video editing pair data generation, demonstrating
competitive performance and significant practical potential. Extensive
experiments demonstrate VideoPainter's superior performance in both any-length
video inpainting and editing, across eight key metrics, including video
quality, mask region preservation, and textual coherence.Summary
AI-Generated Summary