SparkVSR: Super-risoluzione Video Interattiva tramite Propagazione Sparsa di Fotogrammi Chiave
SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation
March 17, 2026
Autori: Jiongze Yu, Xiangbo Gao, Pooja Verlani, Akshay Gadde, Yilin Wang, Balu Adsumilli, Zhengzhong Tu
cs.AI
Abstract
La Super-Risoluzione Video (VSR) mira a ripristinare fotogrammi video di alta qualità a partire da stime a bassa risoluzione (LR). Tuttavia, la maggior parte degli approcci VSR esistenti si comporta come una scatola nera al momento dell'inferenza: gli utenti non possono correggere in modo affidabile artefatti inaspettati, ma possono solo accettare ciò che il modello produce. In questo articolo, proponiamo una nuova framework VSR interattiva denominata SparkVSR che rende i fotogrammi chiave sparsi un segnale di controllo semplice ed espressivo. Nello specifico, gli utenti possono prima applicare la super-risoluzione a un piccolo insieme di fotogrammi chiave, opzionalmente utilizzando qualsiasi modello di super-risoluzione di immagini (ISR) disponibile; successivamente, SparkVSR propaga i priori dei fotogrammi chiave all'intera sequenza video rimanendo ancorato al movimento originale del video LR.
Nello specifico, introduciamo una pipeline di addestramento a due stadi (latente-pixel) condizionata dai fotogrammi chiave, che fonde i latent del video LR con i latent codificati in modo sparso dei fotogrammi chiave ad alta risoluzione (HR) per apprendere una propagazione robusta tra spazi diversi e perfezionare i dettagli percettivi. Al momento dell'inferenza, SparkVSR supporta una selezione flessibile dei fotogrammi chiave (specifica manuale, estrazione dei frame I del codec o campionamento casuale) e un meccanismo di guida senza riferimento che bilancia continuamente l'aderenza ai fotogrammi chiave e il ripristino non referenziato (blind), garantendo prestazioni robuste anche quando i fotogrammi chiave di riferimento sono assenti o imperfetti.
Esperimenti su molteplici benchmark VSR dimostrano un miglioramento della coerenza temporale e una forte qualità di ripristino, superando i baseline fino al 24,6%, 21,8% e 5,6% rispettivamente su CLIP-IQA, DOVER e MUSIQ, abilitando così una super-risoluzione video controllabile e guidata dai fotogrammi chiave. Inoltre, dimostriamo che SparkVSR è una framework generica per l'elaborazione video interattiva e condizionata dai fotogrammi chiave, poiché può essere applicata immediatamente a compiti non visti durante l'addestramento, come il restauro di pellicole antiche e il trasferimento di stile video. La nostra pagina del progetto è disponibile all'indirizzo: https://sparkvsr.github.io/
English
Video Super-Resolution (VSR) aims to restore high-quality video frames from low-resolution (LR) estimates, yet most existing VSR approaches behave like black boxes at inference time: users cannot reliably correct unexpected artifacts, but instead can only accept whatever the model produces. In this paper, we propose a novel interactive VSR framework dubbed SparkVSR that makes sparse keyframes a simple and expressive control signal. Specifically, users can first super-resolve or optionally a small set of keyframes using any off-the-shelf image super-resolution (ISR) model, then SparkVSR propagates the keyframe priors to the entire video sequence while remaining grounded by the original LR video motion. Concretely, we introduce a keyframe-conditioned latent-pixel two-stage training pipeline that fuses LR video latents with sparsely encoded HR keyframe latents to learn robust cross-space propagation and refine perceptual details. At inference time, SparkVSR supports flexible keyframe selection (manual specification, codec I-frame extraction, or random sampling) and a reference-free guidance mechanism that continuously balances keyframe adherence and blind restoration, ensuring robust performance even when reference keyframes are absent or imperfect. Experiments on multiple VSR benchmarks demonstrate improved temporal consistency and strong restoration quality, surpassing baselines by up to 24.6%, 21.8%, and 5.6% on CLIP-IQA, DOVER, and MUSIQ, respectively, enabling controllable, keyframe-driven video super-resolution. Moreover, we demonstrate that SparkVSR is a generic interactive, keyframe-conditioned video processing framework as it can be applied out of the box to unseen tasks such as old-film restoration and video style transfer. Our project page is available at: https://sparkvsr.github.io/