DiffIR2VR-Zero: Zero-Shot Videorestauratie met Diffusiegebaseerde Beeldrestauratiemodellen
DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models
July 1, 2024
Auteurs: Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu
cs.AI
Samenvatting
Dit artikel introduceert een methode voor zero-shot videorestauratie met behulp van vooraf getrainde beeldrestauratie-diffusiemodellen. Traditionele methoden voor videorestauratie vereisen vaak hertraining voor verschillende instellingen en hebben moeite met beperkte generalisatie over verschillende degradatietypen en datasets. Onze aanpak gebruikt een hiërarchische token-samenvoegstrategie voor keyframes en lokale frames, gecombineerd met een hybride correspondentiemechanisme dat optische stroom en feature-based nearest neighbor matching (latente samenvoeging) combineert. We tonen aan dat onze methode niet alleen topprestaties behaalt in zero-shot videorestauratie, maar ook getrainde modellen aanzienlijk overtreft in generalisatie over diverse datasets en extreme degradaties (8x superresolutie en videoruisonderdrukking met hoge standaarddeviatie). We presenteren bewijs via kwantitatieve metingen en visuele vergelijkingen op verschillende uitdagende datasets. Bovendien werkt onze techniek met elk 2D-restauratiediffusiemodel, wat een veelzijdig en krachtig hulpmiddel biedt voor videoverbeteringstaken zonder uitgebreide hertraining. Dit onderzoek leidt tot efficiëntere en breder toepasbare videorestauratietechnologieën, die vooruitgang ondersteunen in vakgebieden die hoogwaardige video-uitvoer vereisen. Bekijk onze projectpagina voor videoresultaten op https://jimmycv07.github.io/DiffIR2VR_web/.
English
This paper introduces a method for zero-shot video restoration using
pre-trained image restoration diffusion models. Traditional video restoration
methods often need retraining for different settings and struggle with limited
generalization across various degradation types and datasets. Our approach uses
a hierarchical token merging strategy for keyframes and local frames, combined
with a hybrid correspondence mechanism that blends optical flow and
feature-based nearest neighbor matching (latent merging). We show that our
method not only achieves top performance in zero-shot video restoration but
also significantly surpasses trained models in generalization across diverse
datasets and extreme degradations (8times super-resolution and high-standard
deviation video denoising). We present evidence through quantitative metrics
and visual comparisons on various challenging datasets. Additionally, our
technique works with any 2D restoration diffusion model, offering a versatile
and powerful tool for video enhancement tasks without extensive retraining.
This research leads to more efficient and widely applicable video restoration
technologies, supporting advancements in fields that require high-quality video
output. See our project page for video results at
https://jimmycv07.github.io/DiffIR2VR_web/.