ChatPaper.aiChatPaper

ProPainter: Mejora de la Propagación y el Transformer para la Restauración de Vídeo

ProPainter: Improving Propagation and Transformer for Video Inpainting

September 7, 2023
Autores: Shangchen Zhou, Chongyi Li, Kelvin C. K. Chan, Chen Change Loy
cs.AI

Resumen

La propagación basada en flujo y el Transformer espacio-temporal son dos mecanismos principales en la restauración de vídeos (VI). A pesar de la efectividad de estos componentes, aún presentan ciertas limitaciones que afectan su rendimiento. Los enfoques anteriores basados en propagación se realizan por separado, ya sea en el dominio de la imagen o en el de las características. La propagación global de imágenes, aislada del aprendizaje, puede causar desalineación espacial debido a flujos ópticos imprecisos. Además, las limitaciones de memoria o computación restringen el rango temporal de la propagación de características y el Transformer de vídeo, impidiendo la exploración de información de correspondencia en fotogramas distantes. Para abordar estos problemas, proponemos un marco mejorado, llamado ProPainter, que incluye una propagación mejorada y un Transformer eficiente. Específicamente, introducimos una propagación de doble dominio que combina las ventajas del deformado de imágenes y características, aprovechando de manera confiable las correspondencias globales. También proponemos un Transformer de vídeo disperso guiado por máscara, que logra alta eficiencia al descartar tokens innecesarios y redundantes. Con estos componentes, ProPainter supera a los métodos anteriores por un amplio margen de 1.46 dB en PSNR, manteniendo una eficiencia atractiva.
English
Flow-based propagation and spatiotemporal Transformer are two mainstream mechanisms in video inpainting (VI). Despite the effectiveness of these components, they still suffer from some limitations that affect their performance. Previous propagation-based approaches are performed separately either in the image or feature domain. Global image propagation isolated from learning may cause spatial misalignment due to inaccurate optical flow. Moreover, memory or computational constraints limit the temporal range of feature propagation and video Transformer, preventing exploration of correspondence information from distant frames. To address these issues, we propose an improved framework, called ProPainter, which involves enhanced ProPagation and an efficient Transformer. Specifically, we introduce dual-domain propagation that combines the advantages of image and feature warping, exploiting global correspondences reliably. We also propose a mask-guided sparse video Transformer, which achieves high efficiency by discarding unnecessary and redundant tokens. With these components, ProPainter outperforms prior arts by a large margin of 1.46 dB in PSNR while maintaining appealing efficiency.
PDF271December 15, 2024