ChatPaper.aiChatPaper

SparkVSR: 희소 키프레임 전파를 통한 대화형 비디오 초해상도

SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation

March 17, 2026
저자: Jiongze Yu, Xiangbo Gao, Pooja Verlani, Akshay Gadde, Yilin Wang, Balu Adsumilli, Zhengzhong Tu
cs.AI

초록

Video Super-Resolution(VSR)은 저해상도(LR) 입력으로부터 고품질 비디오 프레임을 복원하는 것을 목표로 하지만, 기존 대부분의 VSR 방법은 추론 시 블랙박스처럼 동작합니다. 즉, 사용자는 예상치 못한 아티팩트를 안정적으로 수정할 수 없고 모델이 생성하는 결과를 수용할 수밖에 없습니다. 본 논문에서는 희소 키프레임을 간단하면서도 표현력 있는 제어 신호로 활용하는 새로운 상호작용형 VSR 프레임워크인 SparkVSR을 제안합니다. 구체적으로, 사용자는 먼저 기존의 어떤 이미지 초해상도(ISR) 모델을 사용해 소량의 키프레임 집합을 초해상도로 변환한 후(선택적), SparkVSR이 키프레임 사전 정보를 전체 비디오 시퀀스로 전파하되 원본 LR 비디오의 모션에 기반을 둡니다. 이를 위해 우리는 키프레임 조건부 잠재-픽셀 2단계 학습 파이프라인을 도입하여 LR 비디오 잠재 표현과 희소하게 인코딩된 고해상도(HR) 키프레임 잠재 표현을 융합하여 강건한 교차 공간 전파를 학습하고 지각적 디테일을 정제합니다. 추론 시에는 SparkVSR이 유연한 키프레임 선택(수동 지정, 코덱 I-프레임 추출, 무작위 샘플링)과 참조 없는 guidance 메커니즘을 지원하여 키프레임 준수와 블라인드 복원 사이의 지속적인 균형을 유지합니다. 이는 참조 키프레임이 없거나 불완전한 경우에도 강건한 성능을 보장합니다. 여러 VSR 벤치마크에서의 실험은 향상된 시간적 일관성과 우수한 복원 품질을 입증하며, 기준 방법 대비 CLIP-IQA, DOVER, MUSIQ에서 각각 최대 24.6%, 21.8%, 5.6% 향상된 결과를 보여 제어 가능한 키프레임 주도 비디오 초해상도를 가능하게 합니다. 더 나아가 SparkVSR이 구형 필름 복원 및 비디오 스타일 변환과 같은 본 적 없는 작업에도 바로 적용될 수 있는 일반적인 상호작용형 키프레임 조건부 비디오 처리 프레임워크임을 입증합니다. 우리의 프로젝트 페이지는 https://sparkvsr.github.io/에서 확인할 수 있습니다.
English
Video Super-Resolution (VSR) aims to restore high-quality video frames from low-resolution (LR) estimates, yet most existing VSR approaches behave like black boxes at inference time: users cannot reliably correct unexpected artifacts, but instead can only accept whatever the model produces. In this paper, we propose a novel interactive VSR framework dubbed SparkVSR that makes sparse keyframes a simple and expressive control signal. Specifically, users can first super-resolve or optionally a small set of keyframes using any off-the-shelf image super-resolution (ISR) model, then SparkVSR propagates the keyframe priors to the entire video sequence while remaining grounded by the original LR video motion. Concretely, we introduce a keyframe-conditioned latent-pixel two-stage training pipeline that fuses LR video latents with sparsely encoded HR keyframe latents to learn robust cross-space propagation and refine perceptual details. At inference time, SparkVSR supports flexible keyframe selection (manual specification, codec I-frame extraction, or random sampling) and a reference-free guidance mechanism that continuously balances keyframe adherence and blind restoration, ensuring robust performance even when reference keyframes are absent or imperfect. Experiments on multiple VSR benchmarks demonstrate improved temporal consistency and strong restoration quality, surpassing baselines by up to 24.6%, 21.8%, and 5.6% on CLIP-IQA, DOVER, and MUSIQ, respectively, enabling controllable, keyframe-driven video super-resolution. Moreover, we demonstrate that SparkVSR is a generic interactive, keyframe-conditioned video processing framework as it can be applied out of the box to unseen tasks such as old-film restoration and video style transfer. Our project page is available at: https://sparkvsr.github.io/
PDF122March 19, 2026