ProPainter: Verbesserung von Propagation und Transformer für Video-Inpainting
ProPainter: Improving Propagation and Transformer for Video Inpainting
September 7, 2023
Autoren: Shangchen Zhou, Chongyi Li, Kelvin C. K. Chan, Chen Change Loy
cs.AI
Zusammenfassung
Flow-basierte Propagation und spatiotemporale Transformer sind zwei gängige Mechanismen in der Videoinpainting (VI). Trotz der Effektivität dieser Komponenten leiden sie immer noch unter einigen Einschränkungen, die ihre Leistung beeinträchtigen. Bisherige propagationsbasierte Ansätze wurden entweder im Bild- oder im Feature-Domänen separat durchgeführt. Globale Bildpropagation, die vom Lernen isoliert ist, kann aufgrund ungenauer optischer Flüsse zu räumlichen Fehlausrichtungen führen. Darüber hinaus begrenzen Speicher- oder Rechenbeschränkungen den zeitlichen Bereich der Feature-Propagation und des Video-Transformers, was die Erkundung von Korrespondenzinformationen aus entfernten Frames verhindert. Um diese Probleme zu lösen, schlagen wir ein verbessertes Framework namens ProPainter vor, das eine verbesserte Propagation und einen effizienten Transformer umfasst. Insbesondere führen wir eine Dual-Domain-Propagation ein, die die Vorteile von Bild- und Feature-Warping kombiniert und globale Korrespondenzen zuverlässig nutzt. Wir schlagen auch einen maskengeführten spärlichen Video-Transformer vor, der durch das Verwerfen unnötiger und redundanter Token hohe Effizienz erreicht. Mit diesen Komponenten übertrifft ProPainter bisherige Ansätze mit einem deutlichen Vorsprung von 1,46 dB in PSNR bei gleichzeitiger Beibehaltung einer ansprechenden Effizienz.
English
Flow-based propagation and spatiotemporal Transformer are two mainstream
mechanisms in video inpainting (VI). Despite the effectiveness of these
components, they still suffer from some limitations that affect their
performance. Previous propagation-based approaches are performed separately
either in the image or feature domain. Global image propagation isolated from
learning may cause spatial misalignment due to inaccurate optical flow.
Moreover, memory or computational constraints limit the temporal range of
feature propagation and video Transformer, preventing exploration of
correspondence information from distant frames. To address these issues, we
propose an improved framework, called ProPainter, which involves enhanced
ProPagation and an efficient Transformer. Specifically, we introduce
dual-domain propagation that combines the advantages of image and feature
warping, exploiting global correspondences reliably. We also propose a
mask-guided sparse video Transformer, which achieves high efficiency by
discarding unnecessary and redundant tokens. With these components, ProPainter
outperforms prior arts by a large margin of 1.46 dB in PSNR while maintaining
appealing efficiency.