FlashVSR: Verso una Super-Risoluzione Video in Streaming Basata su Diffusione in Tempo Reale
FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
October 14, 2025
Autori: Junhao Zhuang, Shi Guo, Xin Cai, Xiaohui Li, Yihao Liu, Chun Yuan, Tianfan Xue
cs.AI
Abstract
I modelli di diffusione hanno recentemente fatto progressi nel restauro video, ma la loro applicazione al super-risoluzione video (VSR) nel mondo reale rimane impegnativa a causa dell'elevata latenza, del calcolo proibitivo e della scarsa generalizzazione a risoluzioni ultra-elevate. L'obiettivo di questo lavoro è rendere pratico il VSR basato su diffusione, raggiungendo efficienza, scalabilità e prestazioni in tempo reale. A tal fine, proponiamo FlashVSR, il primo framework di streaming one-step basato su diffusione per il VSR in tempo reale. FlashVSR funziona a circa 17 FPS per video 768x1408 su una singola GPU A100, combinando tre innovazioni complementari: (i) una pipeline di distillazione in tre fasi adatta all'addestramento che consente il super-risoluzione in streaming, (ii) un'attenzione sparsa vincolata alla località che riduce il calcolo ridondante colmando il divario di risoluzione tra addestramento e test, e (iii) un piccolo decoder condizionale che accelera la ricostruzione senza sacrificare la qualità. Per supportare l'addestramento su larga scala, abbiamo anche costruito VSR-120K, un nuovo dataset con 120k video e 180k immagini. Esperimenti estensivi dimostrano che FlashVSR scala in modo affidabile a risoluzioni ultra-elevate e raggiunge prestazioni all'avanguardia con un'accelerazione fino a 12x rispetto ai precedenti modelli di VSR one-step basati su diffusione. Rilasceremo il codice, i modelli pre-addestrati e il dataset per favorire future ricerche nel VSR efficiente basato su diffusione.
English
Diffusion models have recently advanced video restoration, but applying them
to real-world video super-resolution (VSR) remains challenging due to high
latency, prohibitive computation, and poor generalization to ultra-high
resolutions. Our goal in this work is to make diffusion-based VSR practical by
achieving efficiency, scalability, and real-time performance. To this end, we
propose FlashVSR, the first diffusion-based one-step streaming framework
towards real-time VSR. FlashVSR runs at approximately 17 FPS for 768x1408
videos on a single A100 GPU by combining three complementary innovations: (i) a
train-friendly three-stage distillation pipeline that enables streaming
super-resolution, (ii) locality-constrained sparse attention that cuts
redundant computation while bridging the train-test resolution gap, and (iii) a
tiny conditional decoder that accelerates reconstruction without sacrificing
quality. To support large-scale training, we also construct VSR-120K, a new
dataset with 120k videos and 180k images. Extensive experiments show that
FlashVSR scales reliably to ultra-high resolutions and achieves
state-of-the-art performance with up to 12x speedup over prior one-step
diffusion VSR models. We will release the code, pretrained models, and dataset
to foster future research in efficient diffusion-based VSR.