ChatPaper.aiChatPaper

SparkVSR : Super-résolution vidéo interactive par propagation parcimonieuse d'images clés

SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation

March 17, 2026
Auteurs: Jiongze Yu, Xiangbo Gao, Pooja Verlani, Akshay Gadde, Yilin Wang, Balu Adsumilli, Zhengzhong Tu
cs.AI

Résumé

La super-résolution vidéo (VSR) vise à restaurer des séquences vidéo de haute qualité à partir d'estimations basse résolution (LR). Cependant, la plupart des approches VSR existantes se comportent comme des boîtes noires lors de l'inférence : les utilisateurs ne peuvent pas corriger de manière fiable les artefacts inattendus, mais doivent se contenter du résultat produit par le modèle. Dans cet article, nous proposons un nouveau cadre interactif de VSR, baptisé SparkVSR, qui utilise des images clés éparses comme signal de contrôle simple et expressif. Concrètement, les utilisateurs peuvent d'abord appliquer la super-résolution à un petit ensemble d'images clés à l'aide de n'importe quel modèle de super-résolution d'image (ISR) standard, puis SparkVSR propage les informations a priori des images clés à l'ensemble de la séquence vidéo tout en restant ancré par le mouvement de la vidéo LR d'origine. Plus précisément, nous introduisons un pipeline d'apprentissage en deux étapes (latent-pixel) conditionné par les images clés, qui fusionne les latents de la vidéo LR avec les latents des images clés haute résolution (HR) encodées de manière éparse pour apprendre une propagation robuste entre espaces et affiner les détails perceptuels. Lors de l'inférence, SparkVSR prend en charge une sélection flexible des images clés (spécification manuelle, extraction des images-I du codec, ou échantillonnage aléatoire) et un mécanisme de guidage sans référence qui équilibre continuellement l'adhésion aux images clés et la restauration aveugle, garantissant des performances robustes même lorsque les images clés de référence sont absentes ou imparfaites. Les expériences sur plusieurs benchmarks VSR démontrent une meilleure cohérence temporelle et une forte qualité de restauration, dépassant les méthodes de référence jusqu'à 24,6 %, 21,8 % et 5,6 % respectivement sur CLIP-IQA, DOVER et MUSIQ, permettant ainsi une super-résolution vidéo contrôlable et pilotée par images clés. De plus, nous montrons que SparkVSR est un cadre générique de traitement vidéo interactif et conditionné par les images clés, car il peut être appliqué directement à des tâches non vues auparavant, telles que la restauration de films anciens et le transfert de style vidéo. Notre page projet est disponible à l'adresse : https://sparkvsr.github.io/
English
Video Super-Resolution (VSR) aims to restore high-quality video frames from low-resolution (LR) estimates, yet most existing VSR approaches behave like black boxes at inference time: users cannot reliably correct unexpected artifacts, but instead can only accept whatever the model produces. In this paper, we propose a novel interactive VSR framework dubbed SparkVSR that makes sparse keyframes a simple and expressive control signal. Specifically, users can first super-resolve or optionally a small set of keyframes using any off-the-shelf image super-resolution (ISR) model, then SparkVSR propagates the keyframe priors to the entire video sequence while remaining grounded by the original LR video motion. Concretely, we introduce a keyframe-conditioned latent-pixel two-stage training pipeline that fuses LR video latents with sparsely encoded HR keyframe latents to learn robust cross-space propagation and refine perceptual details. At inference time, SparkVSR supports flexible keyframe selection (manual specification, codec I-frame extraction, or random sampling) and a reference-free guidance mechanism that continuously balances keyframe adherence and blind restoration, ensuring robust performance even when reference keyframes are absent or imperfect. Experiments on multiple VSR benchmarks demonstrate improved temporal consistency and strong restoration quality, surpassing baselines by up to 24.6%, 21.8%, and 5.6% on CLIP-IQA, DOVER, and MUSIQ, respectively, enabling controllable, keyframe-driven video super-resolution. Moreover, we demonstrate that SparkVSR is a generic interactive, keyframe-conditioned video processing framework as it can be applied out of the box to unseen tasks such as old-film restoration and video style transfer. Our project page is available at: https://sparkvsr.github.io/
PDF122March 19, 2026