ProPainter: Verbetering van Propagatie en Transformer voor Video-inpainting
ProPainter: Improving Propagation and Transformer for Video Inpainting
September 7, 2023
Auteurs: Shangchen Zhou, Chongyi Li, Kelvin C. K. Chan, Chen Change Loy
cs.AI
Samenvatting
Flow-based propagatie en spatiotemporele Transformers zijn twee gangbare mechanismen in video-inpainting (VI). Ondanks de effectiviteit van deze componenten, hebben ze nog steeds enkele beperkingen die hun prestaties beïnvloeden. Eerdere propagatie-gebaseerde benaderingen werden afzonderlijk uitgevoerd, hetzij in het beeld- of het feature-domein. Globale beeldpropagatie, los van het leerproces, kan leiden tot ruimtelijke uitlijning door onnauwkeurige optische flow. Bovendien beperken geheugen- of rekenbeperkingen het temporele bereik van feature-propagatie en video-Transformers, wat het verkennen van correspondentie-informatie uit verre frames verhindert. Om deze problemen aan te pakken, stellen we een verbeterd framework voor, genaamd ProPainter, dat bestaat uit verbeterde ProPagation en een efficiënte Transformer. Specifiek introduceren we dual-domain propagatie, dat de voordelen van beeld- en feature-warping combineert en op betrouwbare wijze globale correspondenties benut. We stellen ook een masker-geleide sparse video Transformer voor, die hoge efficiëntie bereikt door onnodige en redundante tokens te verwijderen. Met deze componenten overtreft ProPainter eerdere methoden met een aanzienlijke marge van 1,46 dB in PSNR, terwijl het aantrekkelijke efficiëntie behoudt.
English
Flow-based propagation and spatiotemporal Transformer are two mainstream
mechanisms in video inpainting (VI). Despite the effectiveness of these
components, they still suffer from some limitations that affect their
performance. Previous propagation-based approaches are performed separately
either in the image or feature domain. Global image propagation isolated from
learning may cause spatial misalignment due to inaccurate optical flow.
Moreover, memory or computational constraints limit the temporal range of
feature propagation and video Transformer, preventing exploration of
correspondence information from distant frames. To address these issues, we
propose an improved framework, called ProPainter, which involves enhanced
ProPagation and an efficient Transformer. Specifically, we introduce
dual-domain propagation that combines the advantages of image and feature
warping, exploiting global correspondences reliably. We also propose a
mask-guided sparse video Transformer, which achieves high efficiency by
discarding unnecessary and redundant tokens. With these components, ProPainter
outperforms prior arts by a large margin of 1.46 dB in PSNR while maintaining
appealing efficiency.