DiffIR2VR-Zero: Restauración de Video Zero-Shot con Modelos de Restauración de Imágenes Basados en Difusión
DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models
July 1, 2024
Autores: Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu
cs.AI
Resumen
Este artículo presenta un método para la restauración de video zero-shot utilizando modelos de difusión preentrenados para la restauración de imágenes. Los métodos tradicionales de restauración de video suelen requerir reentrenamiento para diferentes configuraciones y tienen dificultades para generalizar en diversos tipos de degradación y conjuntos de datos. Nuestro enfoque emplea una estrategia jerárquica de fusión de tokens para fotogramas clave y fotogramas locales, combinada con un mecanismo híbrido de correspondencia que integra flujo óptico y emparejamiento de vecinos más cercanos basado en características (fusión latente). Demostramos que nuestro método no solo logra un rendimiento superior en la restauración de video zero-shot, sino que también supera significativamente a los modelos entrenados en generalización en diversos conjuntos de datos y degradaciones extremas (super-resolución de 8 veces y eliminación de ruido en video con alta desviación estándar). Presentamos evidencia a través de métricas cuantitativas y comparaciones visuales en varios conjuntos de datos desafiantes. Además, nuestra técnica funciona con cualquier modelo de difusión de restauración 2D, ofreciendo una herramienta versátil y potente para tareas de mejora de video sin necesidad de un extenso reentrenamiento. Esta investigación conduce a tecnologías de restauración de video más eficientes y ampliamente aplicables, apoyando avances en campos que requieren salidas de video de alta calidad. Consulte nuestra página del proyecto para ver los resultados en video en https://jimmycv07.github.io/DiffIR2VR_web/.
English
This paper introduces a method for zero-shot video restoration using
pre-trained image restoration diffusion models. Traditional video restoration
methods often need retraining for different settings and struggle with limited
generalization across various degradation types and datasets. Our approach uses
a hierarchical token merging strategy for keyframes and local frames, combined
with a hybrid correspondence mechanism that blends optical flow and
feature-based nearest neighbor matching (latent merging). We show that our
method not only achieves top performance in zero-shot video restoration but
also significantly surpasses trained models in generalization across diverse
datasets and extreme degradations (8times super-resolution and high-standard
deviation video denoising). We present evidence through quantitative metrics
and visual comparisons on various challenging datasets. Additionally, our
technique works with any 2D restoration diffusion model, offering a versatile
and powerful tool for video enhancement tasks without extensive retraining.
This research leads to more efficient and widely applicable video restoration
technologies, supporting advancements in fields that require high-quality video
output. See our project page for video results at
https://jimmycv07.github.io/DiffIR2VR_web/.Summary
AI-Generated Summary