ChatPaper.aiChatPaper

DiffIR2VR-Zero : Restauration vidéo zero-shot avec des modèles de restauration d'images basés sur la diffusion

DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

July 1, 2024
Auteurs: Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu
cs.AI

Résumé

Cet article présente une méthode de restauration vidéo zero-shot utilisant des modèles de diffusion pré-entraînés pour la restauration d'images. Les méthodes traditionnelles de restauration vidéo nécessitent souvent un réentraînement pour différents paramètres et peinent à généraliser efficacement face à divers types de dégradations et jeux de données. Notre approche utilise une stratégie de fusion hiérarchique de tokens pour les images clés et les images locales, combinée à un mécanisme de correspondance hybride qui intègre le flux optique et un appariement des plus proches voisins basé sur les caractéristiques (fusion latente). Nous démontrons que notre méthode non seulement atteint des performances de pointe en restauration vidéo zero-shot, mais surpasse également de manière significative les modèles entraînés en termes de généralisation sur divers jeux de données et dégradations extrêmes (super-résolution 8x et réduction de bruit vidéo à écart-type élevé). Nous présentons des preuves à travers des métriques quantitatives et des comparaisons visuelles sur plusieurs jeux de données complexes. De plus, notre technique est compatible avec tout modèle de diffusion 2D de restauration, offrant un outil polyvalent et puissant pour les tâches d'amélioration vidéo sans nécessiter de réentraînement extensif. Cette recherche ouvre la voie à des technologies de restauration vidéo plus efficaces et largement applicables, soutenant les avancées dans les domaines nécessitant une sortie vidéo de haute qualité. Consultez notre page de projet pour les résultats vidéo à l'adresse https://jimmycv07.github.io/DiffIR2VR_web/.
English
This paper introduces a method for zero-shot video restoration using pre-trained image restoration diffusion models. Traditional video restoration methods often need retraining for different settings and struggle with limited generalization across various degradation types and datasets. Our approach uses a hierarchical token merging strategy for keyframes and local frames, combined with a hybrid correspondence mechanism that blends optical flow and feature-based nearest neighbor matching (latent merging). We show that our method not only achieves top performance in zero-shot video restoration but also significantly surpasses trained models in generalization across diverse datasets and extreme degradations (8times super-resolution and high-standard deviation video denoising). We present evidence through quantitative metrics and visual comparisons on various challenging datasets. Additionally, our technique works with any 2D restoration diffusion model, offering a versatile and powerful tool for video enhancement tasks without extensive retraining. This research leads to more efficient and widely applicable video restoration technologies, supporting advancements in fields that require high-quality video output. See our project page for video results at https://jimmycv07.github.io/DiffIR2VR_web/.

Summary

AI-Generated Summary

PDF245November 28, 2024