DiffIR2VR-Zero: Ripristino Video Zero-Shot con Modelli di Ripristino Immagine basati su Diffusione
DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models
July 1, 2024
Autori: Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu
cs.AI
Abstract
Questo articolo introduce un metodo per il ripristino video zero-shot utilizzando modelli di diffusione pre-addestrati per il ripristino delle immagini. I metodi tradizionali di ripristino video spesso richiedono un nuovo addestramento per diverse configurazioni e faticano a generalizzare efficacemente su vari tipi di degradazione e dataset. Il nostro approccio utilizza una strategia gerarchica di fusione dei token per i fotogrammi chiave e i fotogrammi locali, combinata con un meccanismo ibrido di corrispondenza che unisce il flusso ottico e l'abbinamento dei vicini più prossimi basato su caratteristiche (fusione latente). Dimostriamo che il nostro metodo non solo raggiunge prestazioni eccellenti nel ripristino video zero-shot, ma supera significativamente i modelli addestrati nella generalizzazione su diversi dataset e degradazioni estreme (super-risoluzione 8x e denoising video con deviazione standard elevata). Presentiamo prove attraverso metriche quantitative e confronti visivi su vari dataset impegnativi. Inoltre, la nostra tecnica funziona con qualsiasi modello di diffusione 2D per il ripristino, offrendo uno strumento versatile e potente per i compiti di miglioramento video senza la necessità di un ampio riaddestramento. Questa ricerca porta a tecnologie di ripristino video più efficienti e ampiamente applicabili, supportando i progressi nei campi che richiedono un output video di alta qualità. Consulta la nostra pagina del progetto per i risultati video all'indirizzo https://jimmycv07.github.io/DiffIR2VR_web/.
English
This paper introduces a method for zero-shot video restoration using
pre-trained image restoration diffusion models. Traditional video restoration
methods often need retraining for different settings and struggle with limited
generalization across various degradation types and datasets. Our approach uses
a hierarchical token merging strategy for keyframes and local frames, combined
with a hybrid correspondence mechanism that blends optical flow and
feature-based nearest neighbor matching (latent merging). We show that our
method not only achieves top performance in zero-shot video restoration but
also significantly surpasses trained models in generalization across diverse
datasets and extreme degradations (8times super-resolution and high-standard
deviation video denoising). We present evidence through quantitative metrics
and visual comparisons on various challenging datasets. Additionally, our
technique works with any 2D restoration diffusion model, offering a versatile
and powerful tool for video enhancement tasks without extensive retraining.
This research leads to more efficient and widely applicable video restoration
technologies, supporting advancements in fields that require high-quality video
output. See our project page for video results at
https://jimmycv07.github.io/DiffIR2VR_web/.