FlashVSR : Vers une super-résolution de vidéo en streaming en temps réel basée sur la diffusion

papers.abstract

Les modèles de diffusion ont récemment fait progresser la restauration vidéo, mais leur application à la super-résolution vidéo (VSR) dans des contextes réels reste difficile en raison de la latence élevée, des calculs prohibitifs et de la mauvaise généralisation aux résolutions ultra-élevées. Notre objectif dans ce travail est de rendre la VSR basée sur la diffusion pratique en atteignant l'efficacité, la scalabilité et des performances en temps réel. Pour ce faire, nous proposons FlashVSR, le premier framework de streaming en une étape basé sur la diffusion pour la VSR en temps réel. FlashVSR fonctionne à environ 17 FPS pour des vidéos de 768x1408 sur une seule GPU A100 en combinant trois innovations complémentaires : (i) un pipeline de distillation en trois étapes adapté à l'entraînement qui permet la super-résolution en streaming, (ii) une attention parcimonieuse contrainte par la localité qui réduit les calculs redondants tout en comblant l'écart de résolution entre l'entraînement et les tests, et (iii) un décodeur conditionnel miniature qui accélère la reconstruction sans sacrifier la qualité. Pour soutenir l'entraînement à grande échelle, nous avons également construit VSR-120K, un nouveau jeu de données contenant 120 000 vidéos et 180 000 images. Des expériences approfondies montrent que FlashVSR s'adapte de manière fiable aux résolutions ultra-élevées et atteint des performances de pointe avec une accélération allant jusqu'à 12x par rapport aux modèles de VSR en une étape basés sur la diffusion précédents. Nous publierons le code, les modèles pré-entraînés et le jeu de données pour favoriser les recherches futures sur la VSR efficace basée sur la diffusion.

English

Diffusion models have recently advanced video restoration, but applying them to real-world video super-resolution (VSR) remains challenging due to high latency, prohibitive computation, and poor generalization to ultra-high resolutions. Our goal in this work is to make diffusion-based VSR practical by achieving efficiency, scalability, and real-time performance. To this end, we propose FlashVSR, the first diffusion-based one-step streaming framework towards real-time VSR. FlashVSR runs at approximately 17 FPS for 768x1408 videos on a single A100 GPU by combining three complementary innovations: (i) a train-friendly three-stage distillation pipeline that enables streaming super-resolution, (ii) locality-constrained sparse attention that cuts redundant computation while bridging the train-test resolution gap, and (iii) a tiny conditional decoder that accelerates reconstruction without sacrificing quality. To support large-scale training, we also construct VSR-120K, a new dataset with 120k videos and 180k images. Extensive experiments show that FlashVSR scales reliably to ultra-high resolutions and achieves state-of-the-art performance with up to 12x speedup over prior one-step diffusion VSR models. We will release the code, pretrained models, and dataset to foster future research in efficient diffusion-based VSR.

FlashVSR : Vers une super-résolution de vidéo en streaming en temps réel basée sur la diffusion

FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution

papers.abstract

Support