ProPainter: Miglioramento della Propagazione e del Transformer per il Video Inpainting
ProPainter: Improving Propagation and Transformer for Video Inpainting
September 7, 2023
Autori: Shangchen Zhou, Chongyi Li, Kelvin C. K. Chan, Chen Change Loy
cs.AI
Abstract
La propagazione basata sul flusso ottico e il Transformer spaziotemporale sono due meccanismi principali nel campo del video inpainting (VI). Nonostante l'efficacia di questi componenti, essi presentano ancora alcune limitazioni che ne influenzano le prestazioni. Gli approcci precedenti basati sulla propagazione sono stati eseguiti separatamente nel dominio dell'immagine o delle feature. La propagazione globale dell'immagine, isolata dall'apprendimento, può causare disallineamenti spaziali a causa di flussi ottici imprecisi. Inoltre, vincoli di memoria o computazionali limitano l'intervallo temporale della propagazione delle feature e del Transformer video, impedendo l'esplorazione delle informazioni di corrispondenza da frame distanti. Per affrontare questi problemi, proponiamo un framework migliorato, chiamato ProPainter, che include una propagazione potenziata e un Transformer efficiente. Nello specifico, introduciamo una propagazione a doppio dominio che combina i vantaggi del warping dell'immagine e delle feature, sfruttando in modo affidabile le corrispondenze globali. Proponiamo inoltre un Transformer video sparso guidato da maschera, che raggiunge un'elevata efficienza scartando token non necessari e ridondanti. Grazie a questi componenti, ProPainter supera i precedenti metodi con un ampio margine di 1.46 dB in PSNR, mantenendo un'efficienza attraente.
English
Flow-based propagation and spatiotemporal Transformer are two mainstream
mechanisms in video inpainting (VI). Despite the effectiveness of these
components, they still suffer from some limitations that affect their
performance. Previous propagation-based approaches are performed separately
either in the image or feature domain. Global image propagation isolated from
learning may cause spatial misalignment due to inaccurate optical flow.
Moreover, memory or computational constraints limit the temporal range of
feature propagation and video Transformer, preventing exploration of
correspondence information from distant frames. To address these issues, we
propose an improved framework, called ProPainter, which involves enhanced
ProPagation and an efficient Transformer. Specifically, we introduce
dual-domain propagation that combines the advantages of image and feature
warping, exploiting global correspondences reliably. We also propose a
mask-guided sparse video Transformer, which achieves high efficiency by
discarding unnecessary and redundant tokens. With these components, ProPainter
outperforms prior arts by a large margin of 1.46 dB in PSNR while maintaining
appealing efficiency.