ChatPaper.aiChatPaper

DiffIR2VR-Zero: 拡散ベース画像復元モデルを用いたゼロショット動画復元

DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

July 1, 2024
著者: Chang-Han Yeh, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Ting-Hsuan Chen, Yu-Lun Liu
cs.AI

要旨

本論文では、事前学習済みの画像復元拡散モデルを用いたゼロショット動画復元手法を提案する。従来の動画復元手法は、異なる設定ごとに再学習が必要であり、多様な劣化タイプやデータセット間での汎化性能に課題を抱えていた。我々のアプローチでは、キーフレームとローカルフレームに対する階層的トークン統合戦略を採用し、オプティカルフローと特徴ベースの最近傍マッチング(潜在統合)を組み合わせたハイブリッド対応メカニズムを導入している。本手法は、ゼロショット動画復元において最高の性能を達成するだけでなく、多様なデータセットや極端な劣化(8倍超解像や高標準偏差動画ノイズ除去)に対する汎化性能において、学習済みモデルを大幅に上回ることを示す。様々な挑戦的なデータセットにおける定量的指標と視覚的比較を通じて、その有効性を実証する。さらに、本手法は任意の2D復元拡散モデルと互換性があり、大規模な再学習を必要とせずに動画強調タスクに適用可能な汎用的で強力なツールを提供する。本研究は、より効率的で広く適用可能な動画復元技術の開発につながり、高品質な動画出力を必要とする分野の進展を支援するものである。動画結果についてはプロジェクトページ(https://jimmycv07.github.io/DiffIR2VR_web/)を参照されたい。
English
This paper introduces a method for zero-shot video restoration using pre-trained image restoration diffusion models. Traditional video restoration methods often need retraining for different settings and struggle with limited generalization across various degradation types and datasets. Our approach uses a hierarchical token merging strategy for keyframes and local frames, combined with a hybrid correspondence mechanism that blends optical flow and feature-based nearest neighbor matching (latent merging). We show that our method not only achieves top performance in zero-shot video restoration but also significantly surpasses trained models in generalization across diverse datasets and extreme degradations (8times super-resolution and high-standard deviation video denoising). We present evidence through quantitative metrics and visual comparisons on various challenging datasets. Additionally, our technique works with any 2D restoration diffusion model, offering a versatile and powerful tool for video enhancement tasks without extensive retraining. This research leads to more efficient and widely applicable video restoration technologies, supporting advancements in fields that require high-quality video output. See our project page for video results at https://jimmycv07.github.io/DiffIR2VR_web/.

Summary

AI-Generated Summary

PDF245November 28, 2024