ChatPaper.aiChatPaper

DiffIR2VR-Zero: Zero-Shot Video-Restaurierung mit diffusionsbasierten Bildrestaurierungsmodellen

DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

July 1, 2024
Autoren: Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu
cs.AI

Zusammenfassung

Dieses Papier stellt eine Methode zur Null-Shot-Video-Restaurierung unter Verwendung von vortrainierten Bild-Restaurierungs-Diffusionsmodellen vor. Traditionelle Video-Restaurierungsmethoden erfordern oft ein erneutes Training für verschiedene Einstellungen und haben Schwierigkeiten mit der begrenzten Verallgemeinerung über verschiedene Degradierungstypen und Datensätze hinweg. Unser Ansatz verwendet eine hierarchische Token-Verschmelzungsstrategie für Schlüsselbilder und lokale Bilder, kombiniert mit einem hybriden Korrespondenzmechanismus, der optischen Fluss und Feature-basiertes nächstgelegenes Nachbarn-Matching (latente Verschmelzung) verbindet. Wir zeigen, dass unsere Methode nicht nur Spitzenleistungen bei der Null-Shot-Video-Restaurierung erzielt, sondern auch trainierte Modelle signifikant in der Verallgemeinerung über verschiedene Datensätze und extreme Degradierungen (8-fache Superauflösung und Videobildrauschen mit hoher Standardabweichung) übertrifft. Wir präsentieren Belege durch quantitative Metriken und visuelle Vergleiche auf verschiedenen anspruchsvollen Datensätzen. Darüber hinaus funktioniert unsere Technik mit jedem 2D-Restaurierungs-Diffusionsmodell und bietet ein vielseitiges und leistungsstarkes Werkzeug für Video-Verbesserungsaufgaben ohne umfangreiches erneutes Training. Diese Forschung führt zu effizienteren und weit verbreiteten Video-Restaurierungstechnologien, die Fortschritte in Bereichen unterstützen, die eine qualitativ hochwertige Videoausgabe erfordern. Besuchen Sie unsere Projektseite für Videoergebnisse unter https://jimmycv07.github.io/DiffIR2VR_web/.
English
This paper introduces a method for zero-shot video restoration using pre-trained image restoration diffusion models. Traditional video restoration methods often need retraining for different settings and struggle with limited generalization across various degradation types and datasets. Our approach uses a hierarchical token merging strategy for keyframes and local frames, combined with a hybrid correspondence mechanism that blends optical flow and feature-based nearest neighbor matching (latent merging). We show that our method not only achieves top performance in zero-shot video restoration but also significantly surpasses trained models in generalization across diverse datasets and extreme degradations (8times super-resolution and high-standard deviation video denoising). We present evidence through quantitative metrics and visual comparisons on various challenging datasets. Additionally, our technique works with any 2D restoration diffusion model, offering a versatile and powerful tool for video enhancement tasks without extensive retraining. This research leads to more efficient and widely applicable video restoration technologies, supporting advancements in fields that require high-quality video output. See our project page for video results at https://jimmycv07.github.io/DiffIR2VR_web/.

Summary

AI-Generated Summary

PDF245November 28, 2024