ChatPaper.aiChatPaper

DiffIR2VR-Zero: Restauração de Vídeo sem Uso de Dados com Modelos de Restauração de Imagem Baseados em Difusão

DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

July 1, 2024
Autores: Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu
cs.AI

Resumo

Este artigo apresenta um método para restauração de vídeo sem necessidade de treinamento usando modelos de difusão de restauração de imagem pré-treinados. Métodos tradicionais de restauração de vídeo frequentemente exigem re-treinamento para diferentes configurações e têm dificuldades com a generalização limitada entre vários tipos de degradação e conjuntos de dados. Nossa abordagem utiliza uma estratégia hierárquica de mesclagem de tokens para quadros-chave e quadros locais, combinada com um mecanismo de correspondência híbrido que mescla fluxo óptico e correspondência de vizinho mais próximo baseada em características (mesclagem latente). Mostramos que nosso método não apenas alcança alto desempenho na restauração de vídeo sem necessidade de treinamento, mas também supera significativamente modelos treinados na generalização entre conjuntos de dados diversos e degradações extremas (super-resolução 8 vezes e remoção de ruído em vídeos com alta desvio padrão). Apresentamos evidências por meio de métricas quantitativas e comparações visuais em vários conjuntos de dados desafiadores. Além disso, nossa técnica funciona com qualquer modelo de difusão de restauração 2D, oferecendo uma ferramenta versátil e poderosa para tarefas de aprimoramento de vídeo sem necessidade de extenso re-treinamento. Esta pesquisa resulta em tecnologias de restauração de vídeo mais eficientes e amplamente aplicáveis, apoiando avanços em campos que requerem saída de vídeo de alta qualidade. Consulte nossa página do projeto para ver os resultados em vídeo em https://jimmycv07.github.io/DiffIR2VR_web/.
English
This paper introduces a method for zero-shot video restoration using pre-trained image restoration diffusion models. Traditional video restoration methods often need retraining for different settings and struggle with limited generalization across various degradation types and datasets. Our approach uses a hierarchical token merging strategy for keyframes and local frames, combined with a hybrid correspondence mechanism that blends optical flow and feature-based nearest neighbor matching (latent merging). We show that our method not only achieves top performance in zero-shot video restoration but also significantly surpasses trained models in generalization across diverse datasets and extreme degradations (8times super-resolution and high-standard deviation video denoising). We present evidence through quantitative metrics and visual comparisons on various challenging datasets. Additionally, our technique works with any 2D restoration diffusion model, offering a versatile and powerful tool for video enhancement tasks without extensive retraining. This research leads to more efficient and widely applicable video restoration technologies, supporting advancements in fields that require high-quality video output. See our project page for video results at https://jimmycv07.github.io/DiffIR2VR_web/.
PDF255November 28, 2024