ProPainter: Aprimorando Propagação e Transformadores para Preenchimento de Vídeo
ProPainter: Improving Propagation and Transformer for Video Inpainting
September 7, 2023
Autores: Shangchen Zhou, Chongyi Li, Kelvin C. K. Chan, Chen Change Loy
cs.AI
Resumo
A propagação baseada em fluxo e o Transformer espaço-temporal são dois mecanismos principais na restauração de vídeo (VI). Apesar da eficácia desses componentes, eles ainda sofrem com algumas limitações que afetam seu desempenho. Abordagens anteriores baseadas em propagação são realizadas separadamente, seja no domínio da imagem ou no domínio das características. A propagação global de imagens isolada do aprendizado pode causar desalinhamento espacial devido a fluxos ópticos imprecisos. Além disso, restrições de memória ou computação limitam o alcance temporal da propagação de características e do Transformer de vídeo, impedindo a exploração de informações de correspondência de quadros distantes. Para abordar esses problemas, propomos uma estrutura aprimorada, chamada ProPainter, que envolve uma propagação aprimorada e um Transformer eficiente. Especificamente, introduzimos a propagação em domínio duplo, que combina as vantagens da deformação de imagem e de características, explorando correspondências globais de forma confiável. Também propomos um Transformer de vídeo esparso guiado por máscara, que alcança alta eficiência ao descartar tokens desnecessários e redundantes. Com esses componentes, o ProPainter supera os métodos anteriores por uma grande margem de 1,46 dB em PSNR, mantendo uma eficiência atraente.
English
Flow-based propagation and spatiotemporal Transformer are two mainstream
mechanisms in video inpainting (VI). Despite the effectiveness of these
components, they still suffer from some limitations that affect their
performance. Previous propagation-based approaches are performed separately
either in the image or feature domain. Global image propagation isolated from
learning may cause spatial misalignment due to inaccurate optical flow.
Moreover, memory or computational constraints limit the temporal range of
feature propagation and video Transformer, preventing exploration of
correspondence information from distant frames. To address these issues, we
propose an improved framework, called ProPainter, which involves enhanced
ProPagation and an efficient Transformer. Specifically, we introduce
dual-domain propagation that combines the advantages of image and feature
warping, exploiting global correspondences reliably. We also propose a
mask-guided sparse video Transformer, which achieves high efficiency by
discarding unnecessary and redundant tokens. With these components, ProPainter
outperforms prior arts by a large margin of 1.46 dB in PSNR while maintaining
appealing efficiency.