FlashVSR: 실시간 확산 기반 스트리밍 비디오 초해상도 기술을 향하여
FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
October 14, 2025
저자: Junhao Zhuang, Shi Guo, Xin Cai, Xiaohui Li, Yihao Liu, Chun Yuan, Tianfan Xue
cs.AI
초록
디퓨전 모델은 최근 비디오 복원 분야에서 큰 진전을 이루었지만, 실제 세계의 비디오 초해상도(VSR)에 적용하기에는 높은 지연 시간, 과도한 계산량, 그리고 초고해상도로의 일반화 부족 등의 문제로 인해 여전히 어려움이 남아 있습니다. 본 연구의 목표는 디퓨전 기반 VSR을 효율적이고 확장 가능하며 실시간 성능을 달성함으로써 실용적으로 만드는 것입니다. 이를 위해 우리는 실시간 VSR을 위한 첫 번째 디퓨전 기반 원스텝 스트리밍 프레임워크인 FlashVSR을 제안합니다. FlashVSR은 단일 A100 GPU에서 768x1408 비디오에 대해 약 17 FPS로 실행되며, 이를 위해 세 가지 상호 보완적인 혁신을 결합했습니다: (i) 스트리밍 초해상도를 가능하게 하는 학습 친화적인 3단계 증류 파이프라인, (ii) 학습-테스트 해상도 격차를 줄이면서 불필요한 계산을 줄이는 지역성 제약 희소 주의 메커니즘, (iii) 품질 저하 없이 재구성을 가속화하는 소형 조건부 디코더. 대규모 학습을 지원하기 위해, 우리는 120,000개의 비디오와 180,000개의 이미지로 구성된 새로운 데이터셋인 VSR-120K도 구축했습니다. 광범위한 실험을 통해 FlashVSR이 초고해상도로 안정적으로 확장 가능하며, 기존의 원스텝 디퓨전 VSR 모델 대비 최대 12배의 속도 향상과 함께 최첨단 성능을 달성함을 보여줍니다. 우리는 효율적인 디퓨전 기반 VSR 연구를 촉진하기 위해 코드, 사전 학습된 모델, 그리고 데이터셋을 공개할 예정입니다.
English
Diffusion models have recently advanced video restoration, but applying them
to real-world video super-resolution (VSR) remains challenging due to high
latency, prohibitive computation, and poor generalization to ultra-high
resolutions. Our goal in this work is to make diffusion-based VSR practical by
achieving efficiency, scalability, and real-time performance. To this end, we
propose FlashVSR, the first diffusion-based one-step streaming framework
towards real-time VSR. FlashVSR runs at approximately 17 FPS for 768x1408
videos on a single A100 GPU by combining three complementary innovations: (i) a
train-friendly three-stage distillation pipeline that enables streaming
super-resolution, (ii) locality-constrained sparse attention that cuts
redundant computation while bridging the train-test resolution gap, and (iii) a
tiny conditional decoder that accelerates reconstruction without sacrificing
quality. To support large-scale training, we also construct VSR-120K, a new
dataset with 120k videos and 180k images. Extensive experiments show that
FlashVSR scales reliably to ultra-high resolutions and achieves
state-of-the-art performance with up to 12x speedup over prior one-step
diffusion VSR models. We will release the code, pretrained models, and dataset
to foster future research in efficient diffusion-based VSR.