SparkVSR: Interactieve Video Super-Resolutie via Sparse Keyframe Propagatie
SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation
March 17, 2026
Auteurs: Jiongze Yu, Xiangbo Gao, Pooja Verlani, Akshay Gadde, Yilin Wang, Balu Adsumilli, Zhengzhong Tu
cs.AI
Samenvatting
Video Super-Resolutie (VSR) heeft als doel hoogwaardige videoframes te herstellen uit low-resolution (LR) schattingen. Toch gedragen de meeste bestaande VSR-benaderingen zich tijdens inferentie als black boxes: gebruikers kunnen onverwachte artefacten niet betrouwbaar corrigeren, maar moeten accepteren wat het model produceert. In dit artikel stellen we een nieuw interactief VSR-raamwerk voor, genaamd SparkVSR, dat schaarse keyframes gebruikt als eenvoudig en expressief controlesignaal. Gebruikers kunnen eerst een kleine set keyframes super-resolven met behulp van een bestaand image super-resolution (ISR) model. Vervolgens propageert SparkVSR de prior informatie van de keyframes naar de volledige videosequentie, terwijl deze verankerd blijft aan de oorspronkelijke LR-videobeweging. Concreet introduceren we een keyframe-geconditioneerde pijplijn met twee trainingsfasen (latent-pixel) die LR-videolatents versmelt met gecodeerde HR-keyframe-latents om robuuste kruisruimte-propagatie te leren en perceptuele details te verfijnen. Tijdens inferentie ondersteunt SparkVSR flexibele keyframe-selectie (handmatige specificatie, codec I-frame extractie, of willekeurige bemonstering) en een referentievrije begeleidingsmechanisme dat continu de balans houdt tussen keyframe-naleving en blinde restauratie, waardoor robuuste prestaties worden gegarandeerd, zelfs wanneer referentie-keyframes ontbreken of imperfect zijn. Experimenten op meerdere VSR-benchmarks tonen verbeterde temporele consistentie en sterke restauratiekwaliteit aan, waarbij de baseline-methodes worden overtroffen met respectievelijk tot 24,6%, 21,8% en 5,6% op CLIP-IQA, DOVER en MUSIQ. Dit maakt controleerbare, keyframe-gestuurde video super-resolutie mogelijk. Bovendien tonen we aan dat SparkVSR een generiek interactief, keyframe-geconditioneerd videoverwerkingsraamwerk is, omdat het direct toegepast kan worden op onbekende taken zoals het restaureren van oude films en videostijloverdracht. Onze projectpagina is beschikbaar op: https://sparkvsr.github.io/
English
Video Super-Resolution (VSR) aims to restore high-quality video frames from low-resolution (LR) estimates, yet most existing VSR approaches behave like black boxes at inference time: users cannot reliably correct unexpected artifacts, but instead can only accept whatever the model produces. In this paper, we propose a novel interactive VSR framework dubbed SparkVSR that makes sparse keyframes a simple and expressive control signal. Specifically, users can first super-resolve or optionally a small set of keyframes using any off-the-shelf image super-resolution (ISR) model, then SparkVSR propagates the keyframe priors to the entire video sequence while remaining grounded by the original LR video motion. Concretely, we introduce a keyframe-conditioned latent-pixel two-stage training pipeline that fuses LR video latents with sparsely encoded HR keyframe latents to learn robust cross-space propagation and refine perceptual details. At inference time, SparkVSR supports flexible keyframe selection (manual specification, codec I-frame extraction, or random sampling) and a reference-free guidance mechanism that continuously balances keyframe adherence and blind restoration, ensuring robust performance even when reference keyframes are absent or imperfect. Experiments on multiple VSR benchmarks demonstrate improved temporal consistency and strong restoration quality, surpassing baselines by up to 24.6%, 21.8%, and 5.6% on CLIP-IQA, DOVER, and MUSIQ, respectively, enabling controllable, keyframe-driven video super-resolution. Moreover, we demonstrate that SparkVSR is a generic interactive, keyframe-conditioned video processing framework as it can be applied out of the box to unseen tasks such as old-film restoration and video style transfer. Our project page is available at: https://sparkvsr.github.io/