DiffIR2VR-Zero: Восстановление видео без обучения с использованием моделей восстановления изображений на основе диффузии
DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models
July 1, 2024
Авторы: Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu
cs.AI
Аннотация
Данный документ представляет метод нулевой видео восстановления с использованием предварительно обученных моделей диффузии восстановления изображений. Традиционные методы восстановления видео часто требуют повторного обучения для различных настроек и испытывают трудности с ограниченной обобщаемостью по различным типам деградации и наборам данных. Наш подход использует иерархическую стратегию слияния токенов для ключевых кадров и локальных кадров, в сочетании с гибридным механизмом соответствия, который объединяет оптический поток и сопоставление на основе признаков ближайших соседей (слияние латентных). Мы показываем, что наш метод не только достигает лучших результатов в нулевом видео восстановлении, но также значительно превосходит обученные модели в обобщении по различным наборам данных и экстремальным деградациям (восемькратное увеличение разрешения и видео-шумоподавление с высоким стандартным отклонением). Мы представляем доказательства через количественные метрики и визуальные сравнения на различных сложных наборах данных. Кроме того, наша техника работает с любой двумерной моделью диффузии восстановления, предлагая универсальный и мощный инструмент для задач улучшения видео без обширного повторного обучения. Это исследование приводит к более эффективным и широко применимым технологиям восстановления видео, поддерживая прогресс в областях, требующих высококачественного видеовыхода. Смотрите нашу страницу проекта для видеорезультатов по ссылке https://jimmycv07.github.io/DiffIR2VR_web/.
English
This paper introduces a method for zero-shot video restoration using
pre-trained image restoration diffusion models. Traditional video restoration
methods often need retraining for different settings and struggle with limited
generalization across various degradation types and datasets. Our approach uses
a hierarchical token merging strategy for keyframes and local frames, combined
with a hybrid correspondence mechanism that blends optical flow and
feature-based nearest neighbor matching (latent merging). We show that our
method not only achieves top performance in zero-shot video restoration but
also significantly surpasses trained models in generalization across diverse
datasets and extreme degradations (8times super-resolution and high-standard
deviation video denoising). We present evidence through quantitative metrics
and visual comparisons on various challenging datasets. Additionally, our
technique works with any 2D restoration diffusion model, offering a versatile
and powerful tool for video enhancement tasks without extensive retraining.
This research leads to more efficient and widely applicable video restoration
technologies, supporting advancements in fields that require high-quality video
output. See our project page for video results at
https://jimmycv07.github.io/DiffIR2VR_web/.Summary
AI-Generated Summary