FlashVSR: Auf dem Weg zur Echtzeit-Diffusion-basierten Streaming-Video-Superauflösung
FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
October 14, 2025
papers.authors: Junhao Zhuang, Shi Guo, Xin Cai, Xiaohui Li, Yihao Liu, Chun Yuan, Tianfan Xue
cs.AI
papers.abstract
Diffusionsmodelle haben kürzlich die Videorestaurierung vorangetrieben, doch ihre Anwendung auf die Video-Super-Resolution (VSR) in der realen Welt bleibt aufgrund hoher Latenz, prohibitivem Rechenaufwand und schlechter Generalisierung auf ultrahohe Auflösungen eine Herausforderung. Unser Ziel in dieser Arbeit ist es, die Diffusions-basierte VSR praktikabel zu machen, indem wir Effizienz, Skalierbarkeit und Echtzeitfähigkeit erreichen. Zu diesem Zweck schlagen wir FlashVSR vor, das erste Diffusions-basierte Einstufen-Streaming-Framework für Echtzeit-VSR. FlashVSR läuft mit etwa 17 FPS für 768x1408-Videos auf einer einzelnen A100-GPU, indem es drei komplementäre Innovationen kombiniert: (i) eine trainingsfreundliche dreistufige Destillationspipeline, die Streaming-Super-Resolution ermöglicht, (ii) eine lokalitätsbeschränkte spärliche Aufmerksamkeit, die redundante Berechnungen reduziert und gleichzeitig die Lücke zwischen Trainings- und Testauflösung überbrückt, und (iii) einen winzigen bedingten Decoder, der die Rekonstruktion beschleunigt, ohne die Qualität zu beeinträchtigen. Um das Training in großem Maßstab zu unterstützen, haben wir auch VSR-120K erstellt, einen neuen Datensatz mit 120.000 Videos und 180.000 Bildern. Umfangreiche Experimente zeigen, dass FlashVSR zuverlässig auf ultrahohe Auflösungen skaliert und mit bis zu 12-facher Beschleunigung gegenüber früheren Einstufen-Diffusions-VSR-Modellen state-of-the-art-Leistung erzielt. Wir werden den Code, vortrainierte Modelle und den Datensatz veröffentlichen, um zukünftige Forschung in effizienter Diffusions-basierter VSR zu fördern.
English
Diffusion models have recently advanced video restoration, but applying them
to real-world video super-resolution (VSR) remains challenging due to high
latency, prohibitive computation, and poor generalization to ultra-high
resolutions. Our goal in this work is to make diffusion-based VSR practical by
achieving efficiency, scalability, and real-time performance. To this end, we
propose FlashVSR, the first diffusion-based one-step streaming framework
towards real-time VSR. FlashVSR runs at approximately 17 FPS for 768x1408
videos on a single A100 GPU by combining three complementary innovations: (i) a
train-friendly three-stage distillation pipeline that enables streaming
super-resolution, (ii) locality-constrained sparse attention that cuts
redundant computation while bridging the train-test resolution gap, and (iii) a
tiny conditional decoder that accelerates reconstruction without sacrificing
quality. To support large-scale training, we also construct VSR-120K, a new
dataset with 120k videos and 180k images. Extensive experiments show that
FlashVSR scales reliably to ultra-high resolutions and achieves
state-of-the-art performance with up to 12x speedup over prior one-step
diffusion VSR models. We will release the code, pretrained models, and dataset
to foster future research in efficient diffusion-based VSR.