ChatPaper.aiChatPaper

FlashVSR: Rumo à Super-Resolução de Vídeo em Streaming Baseada em Difusão em Tempo Real

FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution

October 14, 2025
Autores: Junhao Zhuang, Shi Guo, Xin Cai, Xiaohui Li, Yihao Liu, Chun Yuan, Tianfan Xue
cs.AI

Resumo

Modelos de difusão têm avançado recentemente a restauração de vídeos, mas sua aplicação à super-resolução de vídeo (VSR) no mundo real continua desafiadora devido à alta latência, computação proibitiva e generalização inadequada para resoluções ultra-altas. Nosso objetivo neste trabalho é tornar a VSR baseada em difusão prática, alcançando eficiência, escalabilidade e desempenho em tempo real. Para isso, propomos o FlashVSR, o primeiro framework de streaming em uma etapa baseado em difusão voltado para VSR em tempo real. O FlashVSR opera a aproximadamente 17 FPS para vídeos de 768x1408 em uma única GPU A100, combinando três inovações complementares: (i) um pipeline de destilação em três estágios amigável ao treinamento que permite super-resolução em streaming, (ii) atenção esparsa com restrição de localidade que reduz a computação redundante enquanto preenche a lacuna de resolução entre treino e teste, e (iii) um decodificador condicional compacto que acelera a reconstrução sem sacrificar a qualidade. Para suportar o treinamento em larga escala, também construímos o VSR-120K, um novo conjunto de dados com 120 mil vídeos e 180 mil imagens. Experimentos extensivos mostram que o FlashVSR escala de forma confiável para resoluções ultra-altas e alcança desempenho de ponta com uma aceleração de até 12x em relação a modelos anteriores de VSR baseados em difusão de uma etapa. Liberaremos o código, modelos pré-treinados e o conjunto de dados para fomentar pesquisas futuras em VSR baseada em difusão eficiente.
English
Diffusion models have recently advanced video restoration, but applying them to real-world video super-resolution (VSR) remains challenging due to high latency, prohibitive computation, and poor generalization to ultra-high resolutions. Our goal in this work is to make diffusion-based VSR practical by achieving efficiency, scalability, and real-time performance. To this end, we propose FlashVSR, the first diffusion-based one-step streaming framework towards real-time VSR. FlashVSR runs at approximately 17 FPS for 768x1408 videos on a single A100 GPU by combining three complementary innovations: (i) a train-friendly three-stage distillation pipeline that enables streaming super-resolution, (ii) locality-constrained sparse attention that cuts redundant computation while bridging the train-test resolution gap, and (iii) a tiny conditional decoder that accelerates reconstruction without sacrificing quality. To support large-scale training, we also construct VSR-120K, a new dataset with 120k videos and 180k images. Extensive experiments show that FlashVSR scales reliably to ultra-high resolutions and achieves state-of-the-art performance with up to 12x speedup over prior one-step diffusion VSR models. We will release the code, pretrained models, and dataset to foster future research in efficient diffusion-based VSR.
PDF393February 7, 2026