DiffuEraser:ビデオ補間のための拡散モデル
DiffuEraser: A Diffusion Model for Video Inpainting
January 17, 2025
著者: Xiaowen Li, Haolan Xue, Peiran Ren, Liefeng Bo
cs.AI
要旨
最近のビデオインペインティングアルゴリズムは、光学フローを活用して隣接フレームからの情報を使用して、テクスチャやオブジェクトを復元するために、フローベースのピクセル伝播とトランスフォーマーベースの生成を統合しています。同時に、視覚トランスフォーマーを使用してマスクされた領域を補完します。しかし、これらの手法は、大きなマスクを扱う際にしばしばぼやけや時間的な不整合に直面するため、より高度な生成能力を持つモデルが必要とされています。最近、拡散モデルが画像やビデオ生成において印象的なパフォーマンスを発揮することから、注目されています。本論文では、安定した拡散に基づくビデオインペインティングモデルであるDiffuEraserを紹介し、マスクされた領域により詳細でより一貫した構造を補完するよう設計されています。ノイズのアーティファクトを軽減し、幻覚を抑制するために、初期化と弱い条件付けに先行情報を組み込んでいます。さらに、長いシーケンス推論中の時間的一貫性を向上させるために、先行モデルとDiffuEraserの両方の時間的受容野を拡張し、ビデオ拡散モデルの時間的平滑化特性を活用して一貫性をさらに向上させています。実験結果は、提案手法がコンテンツの完全性と時間的一貫性の両方で最先端の技術を上回り、受け入れ可能な効率性を維持していることを示しています。
English
Recent video inpainting algorithms integrate flow-based pixel propagation
with transformer-based generation to leverage optical flow for restoring
textures and objects using information from neighboring frames, while
completing masked regions through visual Transformers. However, these
approaches often encounter blurring and temporal inconsistencies when dealing
with large masks, highlighting the need for models with enhanced generative
capabilities. Recently, diffusion models have emerged as a prominent technique
in image and video generation due to their impressive performance. In this
paper, we introduce DiffuEraser, a video inpainting model based on stable
diffusion, designed to fill masked regions with greater details and more
coherent structures. We incorporate prior information to provide initialization
and weak conditioning,which helps mitigate noisy artifacts and suppress
hallucinations. Additionally, to improve temporal consistency during
long-sequence inference, we expand the temporal receptive fields of both the
prior model and DiffuEraser, and further enhance consistency by leveraging the
temporal smoothing property of Video Diffusion Models. Experimental results
demonstrate that our proposed method outperforms state-of-the-art techniques in
both content completeness and temporal consistency while maintaining acceptable
efficiency.Summary
AI-Generated Summary