FlashVSR: В направлении сверхразрешения потокового видео в реальном времени на основе диффузии
FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
October 14, 2025
Авторы: Junhao Zhuang, Shi Guo, Xin Cai, Xiaohui Li, Yihao Liu, Chun Yuan, Tianfan Xue
cs.AI
Аннотация
Диффузионные модели недавно совершили прорыв в восстановлении видео, однако их применение в задаче супер-разрешения реальных видео (VSR) остается сложной задачей из-за высокой задержки, чрезмерных вычислительных затрат и плохой обобщаемости на сверхвысокие разрешения. Цель нашей работы — сделать диффузионное VSR практичным, достигнув эффективности, масштабируемости и работы в реальном времени. Для этого мы предлагаем FlashVSR — первую одношаговую потоковую платформу на основе диффузии для VSR в реальном времени. FlashVSR работает со скоростью примерно 17 кадров в секунду для видео 768x1408 на одном GPU A100 благодаря трем взаимодополняющим инновациям: (i) удобный для обучения трехэтапный конвейер дистилляции, обеспечивающий потоковое супер-разрешение, (ii) разреженное внимание с ограничением локальности, которое сокращает избыточные вычисления, одновременно устраняя разрыв между разрешениями при обучении и тестировании, и (iii) компактный условный декодер, ускоряющий восстановление без потери качества. Для поддержки масштабного обучения мы также создали VSR-120K — новый набор данных, содержащий 120 тысяч видео и 180 тысяч изображений. Многочисленные эксперименты показывают, что FlashVSR надежно масштабируется до сверхвысоких разрешений и достигает наилучших результатов, обеспечивая до 12-кратного ускорения по сравнению с предыдущими одношаговыми диффузионными моделями VSR. Мы опубликуем код, предобученные модели и набор данных для стимулирования будущих исследований в области эффективного диффузионного VSR.
English
Diffusion models have recently advanced video restoration, but applying them
to real-world video super-resolution (VSR) remains challenging due to high
latency, prohibitive computation, and poor generalization to ultra-high
resolutions. Our goal in this work is to make diffusion-based VSR practical by
achieving efficiency, scalability, and real-time performance. To this end, we
propose FlashVSR, the first diffusion-based one-step streaming framework
towards real-time VSR. FlashVSR runs at approximately 17 FPS for 768x1408
videos on a single A100 GPU by combining three complementary innovations: (i) a
train-friendly three-stage distillation pipeline that enables streaming
super-resolution, (ii) locality-constrained sparse attention that cuts
redundant computation while bridging the train-test resolution gap, and (iii) a
tiny conditional decoder that accelerates reconstruction without sacrificing
quality. To support large-scale training, we also construct VSR-120K, a new
dataset with 120k videos and 180k images. Extensive experiments show that
FlashVSR scales reliably to ultra-high resolutions and achieves
state-of-the-art performance with up to 12x speedup over prior one-step
diffusion VSR models. We will release the code, pretrained models, and dataset
to foster future research in efficient diffusion-based VSR.