FlashVSR: Auf dem Weg zur Echtzeit-Diffusion-basierten Streaming-Video-Superauflösung

papers.abstract

Diffusionsmodelle haben kürzlich die Videorestaurierung vorangetrieben, doch ihre Anwendung auf die Video-Super-Resolution (VSR) in der realen Welt bleibt aufgrund hoher Latenz, prohibitivem Rechenaufwand und schlechter Generalisierung auf ultrahohe Auflösungen eine Herausforderung. Unser Ziel in dieser Arbeit ist es, die Diffusions-basierte VSR praktikabel zu machen, indem wir Effizienz, Skalierbarkeit und Echtzeitfähigkeit erreichen. Zu diesem Zweck schlagen wir FlashVSR vor, das erste Diffusions-basierte Einstufen-Streaming-Framework für Echtzeit-VSR. FlashVSR läuft mit etwa 17 FPS für 768x1408-Videos auf einer einzelnen A100-GPU, indem es drei komplementäre Innovationen kombiniert: (i) eine trainingsfreundliche dreistufige Destillationspipeline, die Streaming-Super-Resolution ermöglicht, (ii) eine lokalitätsbeschränkte spärliche Aufmerksamkeit, die redundante Berechnungen reduziert und gleichzeitig die Lücke zwischen Trainings- und Testauflösung überbrückt, und (iii) einen winzigen bedingten Decoder, der die Rekonstruktion beschleunigt, ohne die Qualität zu beeinträchtigen. Um das Training in großem Maßstab zu unterstützen, haben wir auch VSR-120K erstellt, einen neuen Datensatz mit 120.000 Videos und 180.000 Bildern. Umfangreiche Experimente zeigen, dass FlashVSR zuverlässig auf ultrahohe Auflösungen skaliert und mit bis zu 12-facher Beschleunigung gegenüber früheren Einstufen-Diffusions-VSR-Modellen state-of-the-art-Leistung erzielt. Wir werden den Code, vortrainierte Modelle und den Datensatz veröffentlichen, um zukünftige Forschung in effizienter Diffusions-basierter VSR zu fördern.

English

Diffusion models have recently advanced video restoration, but applying them to real-world video super-resolution (VSR) remains challenging due to high latency, prohibitive computation, and poor generalization to ultra-high resolutions. Our goal in this work is to make diffusion-based VSR practical by achieving efficiency, scalability, and real-time performance. To this end, we propose FlashVSR, the first diffusion-based one-step streaming framework towards real-time VSR. FlashVSR runs at approximately 17 FPS for 768x1408 videos on a single A100 GPU by combining three complementary innovations: (i) a train-friendly three-stage distillation pipeline that enables streaming super-resolution, (ii) locality-constrained sparse attention that cuts redundant computation while bridging the train-test resolution gap, and (iii) a tiny conditional decoder that accelerates reconstruction without sacrificing quality. To support large-scale training, we also construct VSR-120K, a new dataset with 120k videos and 180k images. Extensive experiments show that FlashVSR scales reliably to ultra-high resolutions and achieves state-of-the-art performance with up to 12x speedup over prior one-step diffusion VSR models. We will release the code, pretrained models, and dataset to foster future research in efficient diffusion-based VSR.

FlashVSR: Auf dem Weg zur Echtzeit-Diffusion-basierten Streaming-Video-Superauflösung

FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution

papers.abstract

Support