ProPainter : Amélioration de la propagation et du transformateur pour l'inpainting vidéo
ProPainter: Improving Propagation and Transformer for Video Inpainting
September 7, 2023
Auteurs: Shangchen Zhou, Chongyi Li, Kelvin C. K. Chan, Chen Change Loy
cs.AI
Résumé
La propagation basée sur le flux optique et le Transformer spatiotemporel sont deux mécanismes dominants en restauration vidéo (VI). Malgré l'efficacité de ces composants, ils présentent encore certaines limitations qui affectent leurs performances. Les approches précédentes basées sur la propagation sont réalisées séparément, soit dans le domaine de l'image, soit dans celui des caractéristiques. La propagation globale d'images isolée de l'apprentissage peut entraîner un désalignement spatial en raison d'un flux optique imprécis. De plus, les contraintes de mémoire ou de calcul limitent la portée temporelle de la propagation des caractéristiques et du Transformer vidéo, empêchant l'exploitation des informations de correspondance provenant de trames distantes. Pour résoudre ces problèmes, nous proposons un cadre amélioré, appelé ProPainter, qui intègre une propagation améliorée et un Transformer efficace. Plus précisément, nous introduisons une propagation en double domaine qui combine les avantages de la déformation d'images et de caractéristiques, exploitant de manière fiable les correspondances globales. Nous proposons également un Transformer vidéo parcimonieux guidé par un masque, qui atteint une haute efficacité en éliminant les tokens inutiles et redondants. Grâce à ces composants, ProPainter surpasse les méthodes précédentes avec une marge significative de 1,46 dB en PSNR tout en conservant une efficacité attrayante.
English
Flow-based propagation and spatiotemporal Transformer are two mainstream
mechanisms in video inpainting (VI). Despite the effectiveness of these
components, they still suffer from some limitations that affect their
performance. Previous propagation-based approaches are performed separately
either in the image or feature domain. Global image propagation isolated from
learning may cause spatial misalignment due to inaccurate optical flow.
Moreover, memory or computational constraints limit the temporal range of
feature propagation and video Transformer, preventing exploration of
correspondence information from distant frames. To address these issues, we
propose an improved framework, called ProPainter, which involves enhanced
ProPagation and an efficient Transformer. Specifically, we introduce
dual-domain propagation that combines the advantages of image and feature
warping, exploiting global correspondences reliably. We also propose a
mask-guided sparse video Transformer, which achieves high efficiency by
discarding unnecessary and redundant tokens. With these components, ProPainter
outperforms prior arts by a large margin of 1.46 dB in PSNR while maintaining
appealing efficiency.