Stream-DiffVSR:自己回帰拡散モデルによる低遅延ストリーミング対応ビデオ超解像
Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion
December 29, 2025
著者: Hau-Shiang Shiu, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Po-Fan Yu, Yu-Chih Chen, Yu-Lun Liu
cs.AI
要旨
拡散モデルに基づく動画超解像(VSR)手法は優れた知覚的品質を実現するが、未来フレームへの依存と計算コストの高い多段階ノイズ除去により、遅延に敏感な設定では非現実的である。我々は、効率的なオンラインVSRのための因果的条件付け拡散フレームワーク「Stream-DiffVSR」を提案する。過去フレームのみを厳密に処理する本手法は、高速推論のための4段階蒸留デノイザー、潜在空間ノイズ除去中に動き整合性のある手がかりを注入する自己回帰的時間誘導(ARTG)モジュール、詳細表現と時間的一貫性を強化する軽量な時間認識デコーダ(TPMを備えた時間処理モジュール)を統合する。Stream-DiffVSRはRTX4090 GPUで720pフレームを0.328秒で処理し、従来の拡散ベース手法を大幅に上回る。オンラインSOTAであるTMPと比較して、知覚的品質(LPIPS +0.095)を向上させながら、遅延を130倍以上低減する。本手法は拡散ベースVSRとして報告されている中で最低遅延を達成し、初期遅延を4600秒以上から0.328秒に削減することで、低遅延オンライン展開に適した初の拡散VSR手法となる。プロジェクトページ: https://jamichss.github.io/stream-diffvsr-project-page/
English
Diffusion-based video super-resolution (VSR) methods achieve strong perceptual quality but remain impractical for latency-sensitive settings due to reliance on future frames and expensive multi-step denoising. We propose Stream-DiffVSR, a causally conditioned diffusion framework for efficient online VSR. Operating strictly on past frames, it combines a four-step distilled denoiser for fast inference, an Auto-regressive Temporal Guidance (ARTG) module that injects motion-aligned cues during latent denoising, and a lightweight temporal-aware decoder with a Temporal Processor Module (TPM) that enhances detail and temporal coherence. Stream-DiffVSR processes 720p frames in 0.328 seconds on an RTX4090 GPU and significantly outperforms prior diffusion-based methods. Compared with the online SOTA TMP, it boosts perceptual quality (LPIPS +0.095) while reducing latency by over 130x. Stream-DiffVSR achieves the lowest latency reported for diffusion-based VSR, reducing initial delay from over 4600 seconds to 0.328 seconds, thereby making it the first diffusion VSR method suitable for low-latency online deployment. Project page: https://jamichss.github.io/stream-diffvsr-project-page/