FlashVSR : Vers une super-résolution de vidéo en streaming en temps réel basée sur la diffusion
FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
October 14, 2025
papers.authors: Junhao Zhuang, Shi Guo, Xin Cai, Xiaohui Li, Yihao Liu, Chun Yuan, Tianfan Xue
cs.AI
papers.abstract
Les modèles de diffusion ont récemment fait progresser la restauration vidéo, mais leur application à la super-résolution vidéo (VSR) dans des contextes réels reste difficile en raison de la latence élevée, des calculs prohibitifs et de la mauvaise généralisation aux résolutions ultra-élevées. Notre objectif dans ce travail est de rendre la VSR basée sur la diffusion pratique en atteignant l'efficacité, la scalabilité et des performances en temps réel. Pour ce faire, nous proposons FlashVSR, le premier framework de streaming en une étape basé sur la diffusion pour la VSR en temps réel. FlashVSR fonctionne à environ 17 FPS pour des vidéos de 768x1408 sur une seule GPU A100 en combinant trois innovations complémentaires : (i) un pipeline de distillation en trois étapes adapté à l'entraînement qui permet la super-résolution en streaming, (ii) une attention parcimonieuse contrainte par la localité qui réduit les calculs redondants tout en comblant l'écart de résolution entre l'entraînement et les tests, et (iii) un décodeur conditionnel miniature qui accélère la reconstruction sans sacrifier la qualité. Pour soutenir l'entraînement à grande échelle, nous avons également construit VSR-120K, un nouveau jeu de données contenant 120 000 vidéos et 180 000 images. Des expériences approfondies montrent que FlashVSR s'adapte de manière fiable aux résolutions ultra-élevées et atteint des performances de pointe avec une accélération allant jusqu'à 12x par rapport aux modèles de VSR en une étape basés sur la diffusion précédents. Nous publierons le code, les modèles pré-entraînés et le jeu de données pour favoriser les recherches futures sur la VSR efficace basée sur la diffusion.
English
Diffusion models have recently advanced video restoration, but applying them
to real-world video super-resolution (VSR) remains challenging due to high
latency, prohibitive computation, and poor generalization to ultra-high
resolutions. Our goal in this work is to make diffusion-based VSR practical by
achieving efficiency, scalability, and real-time performance. To this end, we
propose FlashVSR, the first diffusion-based one-step streaming framework
towards real-time VSR. FlashVSR runs at approximately 17 FPS for 768x1408
videos on a single A100 GPU by combining three complementary innovations: (i) a
train-friendly three-stage distillation pipeline that enables streaming
super-resolution, (ii) locality-constrained sparse attention that cuts
redundant computation while bridging the train-test resolution gap, and (iii) a
tiny conditional decoder that accelerates reconstruction without sacrificing
quality. To support large-scale training, we also construct VSR-120K, a new
dataset with 120k videos and 180k images. Extensive experiments show that
FlashVSR scales reliably to ultra-high resolutions and achieves
state-of-the-art performance with up to 12x speedup over prior one-step
diffusion VSR models. We will release the code, pretrained models, and dataset
to foster future research in efficient diffusion-based VSR.