SparkVSR: Interaktive Videosuperauflösung durch Sparse-Keyframe-Propagation

Zusammenfassung

Video Super-Resolution (VSR) zielt darauf ab, hochwertige Videobilder aus niedrigaufgelösten (LR) Schätzungen wiederherzustellen. Dennoch verhalten sich die meisten bestehenden VSR-Ansätze zur Inferenzzeit wie Blackboxen: Benutzer können unerwartete Artefakte nicht zuverlässig korrigieren, sondern müssen akzeptieren, was das Modell ausgibt. In diesem Artikel schlagen wir ein neuartiges, interaktives VSR-Framework namens SparkVSR vor, das spärliche Keyframes zu einem einfachen und ausdrucksstarken Steuersignal macht. Konkret können Benutzer zunächst eine kleine Menge von Keyframes mit einem beliebigen verfügbaren Image Super-Resolution (ISR)-Modell hochskalieren oder optional bearbeiten. Anschließend propagiert SparkVSR die Keyframe-Priors auf die gesamte Videosequenz, bleibt dabei aber durch die ursprüngliche LR-Videobewegung verankert. Dazu führen wir eine Keyframe-konditionierte Zwei-Stufen-Trainingspipeline für latente und pixelbezogene Repräsentationen ein, die LR-Videolatenten mit spärlich kodierten HR-Keyframe-Latenzen fusioniert, um eine robuste cross-space Propagation zu erlernen und perzeptuelle Details zu verfeinern. Zur Inferenzzeit unterstützt SparkVSR flexible Keyframe-Auswahl (manuelle Spezifikation, Extraktion von Codec-I-Frames oder Zufallsstichproben) und einen referenzfreien Führungsmechanismus, der kontinuierlich die Keyframe-Treue und blinde Restauration austariert. Dies gewährleistet eine robuste Leistung, selbst wenn Referenz-Keyframes fehlen oder unvollkommen sind. Experimente auf mehreren VSR-Benchmarks zeigen eine verbesserte zeitliche Konsistenz und starke Restaurationsqualität, die Baseline-Methoden um bis zu 24,6 %, 21,8 % bzw. 5,6 % auf CLIP-IQA, DOVER und MUSIQ übertrifft und somit eine steuerbare, keyframe-gesteuerte Video-Super-Resolution ermöglicht. Darüber hinaus demonstrieren wir, dass SparkVSR ein generisches, interaktives, keyframe-konditioniertes Videoverarbeitungsframework ist, da es ohne Anpassung auf unbekannte Aufgaben wie die Restaurierung von Altfilmen und Video-Style-Transfer angewendet werden kann. Unsere Projektseite ist verfügbar unter: https://sparkvsr.github.io/

English

Video Super-Resolution (VSR) aims to restore high-quality video frames from low-resolution (LR) estimates, yet most existing VSR approaches behave like black boxes at inference time: users cannot reliably correct unexpected artifacts, but instead can only accept whatever the model produces. In this paper, we propose a novel interactive VSR framework dubbed SparkVSR that makes sparse keyframes a simple and expressive control signal. Specifically, users can first super-resolve or optionally a small set of keyframes using any off-the-shelf image super-resolution (ISR) model, then SparkVSR propagates the keyframe priors to the entire video sequence while remaining grounded by the original LR video motion. Concretely, we introduce a keyframe-conditioned latent-pixel two-stage training pipeline that fuses LR video latents with sparsely encoded HR keyframe latents to learn robust cross-space propagation and refine perceptual details. At inference time, SparkVSR supports flexible keyframe selection (manual specification, codec I-frame extraction, or random sampling) and a reference-free guidance mechanism that continuously balances keyframe adherence and blind restoration, ensuring robust performance even when reference keyframes are absent or imperfect. Experiments on multiple VSR benchmarks demonstrate improved temporal consistency and strong restoration quality, surpassing baselines by up to 24.6%, 21.8%, and 5.6% on CLIP-IQA, DOVER, and MUSIQ, respectively, enabling controllable, keyframe-driven video super-resolution. Moreover, we demonstrate that SparkVSR is a generic interactive, keyframe-conditioned video processing framework as it can be applied out of the box to unseen tasks such as old-film restoration and video style transfer. Our project page is available at: https://sparkvsr.github.io/

SparkVSR: Interaktive Videosuperauflösung durch Sparse-Keyframe-Propagation

SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation

Zusammenfassung

Support