ChatPaper.aiChatPaper

ProPainter: ビデオインペインティングのための伝播とトランスフォーマーの改善

ProPainter: Improving Propagation and Transformer for Video Inpainting

September 7, 2023
著者: Shangchen Zhou, Chongyi Li, Kelvin C. K. Chan, Chen Change Loy
cs.AI

要旨

フローベースの伝播と時空間Transformerは、ビデオインペインティング(VI)における2つの主流メカニズムです。これらのコンポーネントは有効であるものの、性能に影響を与えるいくつかの制限が依然として存在します。従来の伝播ベースのアプローチは、画像領域または特徴領域のいずれかで個別に実行されていました。学習から切り離されたグローバルな画像伝播は、不正確なオプティカルフローによる空間的な位置ずれを引き起こす可能性があります。さらに、メモリや計算上の制約により、特徴伝播とビデオTransformerの時間範囲が制限され、遠くのフレームからの対応情報の探索が妨げられています。これらの問題に対処するため、我々はProPainterと呼ばれる改良されたフレームワークを提案します。これは、強化された伝播(ProPagation)と効率的なTransformerを組み合わせたものです。具体的には、画像ワープと特徴ワープの利点を組み合わせたデュアルドメイン伝播を導入し、グローバルな対応関係を確実に活用します。また、マスク誘導型のスパースビデオTransformerを提案し、不要で冗長なトークンを破棄することで高い効率性を実現します。これらのコンポーネントにより、ProPainterはPSNRにおいて1.46 dBという大きな差で従来技術を上回り、魅力的な効率性を維持しています。
English
Flow-based propagation and spatiotemporal Transformer are two mainstream mechanisms in video inpainting (VI). Despite the effectiveness of these components, they still suffer from some limitations that affect their performance. Previous propagation-based approaches are performed separately either in the image or feature domain. Global image propagation isolated from learning may cause spatial misalignment due to inaccurate optical flow. Moreover, memory or computational constraints limit the temporal range of feature propagation and video Transformer, preventing exploration of correspondence information from distant frames. To address these issues, we propose an improved framework, called ProPainter, which involves enhanced ProPagation and an efficient Transformer. Specifically, we introduce dual-domain propagation that combines the advantages of image and feature warping, exploiting global correspondences reliably. We also propose a mask-guided sparse video Transformer, which achieves high efficiency by discarding unnecessary and redundant tokens. With these components, ProPainter outperforms prior arts by a large margin of 1.46 dB in PSNR while maintaining appealing efficiency.
PDF271December 15, 2024