FlashVSR:リアルタイム拡散モデルに基づくストリーミング動画超解像に向けて
FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
October 14, 2025
著者: Junhao Zhuang, Shi Guo, Xin Cai, Xiaohui Li, Yihao Liu, Chun Yuan, Tianfan Xue
cs.AI
要旨
拡散モデルは最近、映像修復の分野で進展を遂げていますが、実世界のビデオ超解像(VSR)に適用する際には、高いレイテンシ、膨大な計算量、超高解像度への汎化性能の低さといった課題が残っています。本研究の目的は、効率性、スケーラビリティ、リアルタイム性能を実現することで、拡散モデルに基づくVSRを実用的なものにすることです。この目的のために、我々はFlashVSRを提案します。これは、リアルタイムVSRを目指した初の拡散モデルベースのワンステームストリーミングフレームワークです。FlashVSRは、単一のA100 GPU上で768x1408のビデオに対して約17 FPSで動作し、以下の3つの補完的なイノベーションを組み合わせています:(i) ストリーミング超解像を可能にするトレーニングフレンドリーな3段階蒸留パイプライン、(ii) 冗長な計算を削減しつつトレーニングとテストの解像度ギャップを埋める局所性制約付きスパースアテンション、(iii) 品質を犠牲にすることなく再構築を加速する小型の条件付きデコーダ。大規模なトレーニングをサポートするために、120kのビデオと180kの画像を含む新しいデータセットVSR-120Kも構築しました。広範な実験により、FlashVSRが超高解像度に確実にスケールし、従来のワンステップ拡散VSRモデルと比較して最大12倍の高速化を達成しつつ、最先端の性能を発揮することが示されました。効率的な拡散モデルベースのVSR研究を促進するため、コード、事前学習済みモデル、データセットを公開する予定です。
English
Diffusion models have recently advanced video restoration, but applying them
to real-world video super-resolution (VSR) remains challenging due to high
latency, prohibitive computation, and poor generalization to ultra-high
resolutions. Our goal in this work is to make diffusion-based VSR practical by
achieving efficiency, scalability, and real-time performance. To this end, we
propose FlashVSR, the first diffusion-based one-step streaming framework
towards real-time VSR. FlashVSR runs at approximately 17 FPS for 768x1408
videos on a single A100 GPU by combining three complementary innovations: (i) a
train-friendly three-stage distillation pipeline that enables streaming
super-resolution, (ii) locality-constrained sparse attention that cuts
redundant computation while bridging the train-test resolution gap, and (iii) a
tiny conditional decoder that accelerates reconstruction without sacrificing
quality. To support large-scale training, we also construct VSR-120K, a new
dataset with 120k videos and 180k images. Extensive experiments show that
FlashVSR scales reliably to ultra-high resolutions and achieves
state-of-the-art performance with up to 12x speedup over prior one-step
diffusion VSR models. We will release the code, pretrained models, and dataset
to foster future research in efficient diffusion-based VSR.