FlashVSR: Hacia la Superresolución de Video en Streaming Basada en Difusión en Tiempo Real
FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
October 14, 2025
Autores: Junhao Zhuang, Shi Guo, Xin Cai, Xiaohui Li, Yihao Liu, Chun Yuan, Tianfan Xue
cs.AI
Resumen
Los modelos de difusión han avanzado recientemente la restauración de video, pero su aplicación a la super-resolución de video (VSR) en escenarios del mundo real sigue siendo un desafío debido a la alta latencia, el cálculo prohibitivo y la mala generalización a resoluciones ultra altas. Nuestro objetivo en este trabajo es hacer que la VSR basada en difusión sea práctica logrando eficiencia, escalabilidad y rendimiento en tiempo real. Para ello, proponemos FlashVSR, el primer marco de transmisión en un solo paso basado en difusión para VSR en tiempo real. FlashVSR funciona a aproximadamente 17 FPS para videos de 768x1408 en una sola GPU A100 mediante la combinación de tres innovaciones complementarias: (i) una canalización de destilación en tres etapas apta para entrenamiento que permite la super-resolución en transmisión, (ii) una atención dispersa con restricción de localidad que reduce el cálculo redundante mientras salva la brecha de resolución entre entrenamiento y prueba, y (iii) un decodificador condicional pequeño que acelera la reconstrucción sin sacrificar la calidad. Para apoyar el entrenamiento a gran escala, también construimos VSR-120K, un nuevo conjunto de datos con 120k videos y 180k imágenes. Experimentos extensivos muestran que FlashVSR escala de manera confiable a resoluciones ultra altas y alcanza un rendimiento de vanguardia con una aceleración de hasta 12x sobre modelos previos de VSR basados en difusión de un solo paso. Publicaremos el código, los modelos preentrenados y el conjunto de datos para fomentar futuras investigaciones en VSR eficiente basada en difusión.
English
Diffusion models have recently advanced video restoration, but applying them
to real-world video super-resolution (VSR) remains challenging due to high
latency, prohibitive computation, and poor generalization to ultra-high
resolutions. Our goal in this work is to make diffusion-based VSR practical by
achieving efficiency, scalability, and real-time performance. To this end, we
propose FlashVSR, the first diffusion-based one-step streaming framework
towards real-time VSR. FlashVSR runs at approximately 17 FPS for 768x1408
videos on a single A100 GPU by combining three complementary innovations: (i) a
train-friendly three-stage distillation pipeline that enables streaming
super-resolution, (ii) locality-constrained sparse attention that cuts
redundant computation while bridging the train-test resolution gap, and (iii) a
tiny conditional decoder that accelerates reconstruction without sacrificing
quality. To support large-scale training, we also construct VSR-120K, a new
dataset with 120k videos and 180k images. Extensive experiments show that
FlashVSR scales reliably to ultra-high resolutions and achieves
state-of-the-art performance with up to 12x speedup over prior one-step
diffusion VSR models. We will release the code, pretrained models, and dataset
to foster future research in efficient diffusion-based VSR.