ProPainter: Усовершенствование методов распространения и трансформеров для восстановления видео
ProPainter: Improving Propagation and Transformer for Video Inpainting
September 7, 2023
Авторы: Shangchen Zhou, Chongyi Li, Kelvin C. K. Chan, Chen Change Loy
cs.AI
Аннотация
Flow-based propagation и spatiotemporal Transformer являются двумя основными механизмами в задаче восстановления видео (video inpainting, VI). Несмотря на эффективность этих компонентов, они всё же имеют некоторые ограничения, которые влияют на их производительность. Предыдущие подходы, основанные на propagation, выполнялись отдельно либо в области изображений, либо в области признаков. Глобальное propagation изображений, изолированное от обучения, может вызывать пространственное смещение из-за неточного оптического потока. Кроме того, ограничения по памяти или вычислительным ресурсам сужают временной диапазон propagation признаков и видео Transformer, что препятствует исследованию информации о соответствиях из удалённых кадров. Для решения этих проблем мы предлагаем улучшенную архитектуру под названием ProPainter, которая включает в себя усовершенствованное ProPagation и эффективный Transformer. В частности, мы вводим dual-domain propagation, объединяющее преимущества искажения изображений и признаков, что позволяет надёжно использовать глобальные соответствия. Мы также предлагаем mask-guided sparse video Transformer, который достигает высокой эффективности за счёт отбрасывания ненужных и избыточных токенов. Благодаря этим компонентам, ProPainter значительно превосходит предыдущие методы, демонстрируя улучшение на 1.46 дБ по PSNR, сохраняя при этом привлекательную эффективность.
English
Flow-based propagation and spatiotemporal Transformer are two mainstream
mechanisms in video inpainting (VI). Despite the effectiveness of these
components, they still suffer from some limitations that affect their
performance. Previous propagation-based approaches are performed separately
either in the image or feature domain. Global image propagation isolated from
learning may cause spatial misalignment due to inaccurate optical flow.
Moreover, memory or computational constraints limit the temporal range of
feature propagation and video Transformer, preventing exploration of
correspondence information from distant frames. To address these issues, we
propose an improved framework, called ProPainter, which involves enhanced
ProPagation and an efficient Transformer. Specifically, we introduce
dual-domain propagation that combines the advantages of image and feature
warping, exploiting global correspondences reliably. We also propose a
mask-guided sparse video Transformer, which achieves high efficiency by
discarding unnecessary and redundant tokens. With these components, ProPainter
outperforms prior arts by a large margin of 1.46 dB in PSNR while maintaining
appealing efficiency.