ChatPaper.aiChatPaper

SparkVSR: Superresolución de Video Interactiva mediante Propagación de Fotogramas Clave Dispersos

SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation

March 17, 2026
Autores: Jiongze Yu, Xiangbo Gao, Pooja Verlani, Akshay Gadde, Yilin Wang, Balu Adsumilli, Zhengzhong Tu
cs.AI

Resumen

La Superresolución de Video (VSR) tiene como objetivo restaurar fotogramas de video de alta calidad a partir de estimaciones de baja resolución (LR). Sin embargo, la mayoría de los enfoques VSR existentes se comportan como cajas negras en el momento de la inferencia: los usuarios no pueden corregir de manera fiable artefactos inesperados, sino que solo pueden aceptar lo que el modelo produce. En este artículo, proponemos un novedoso marco de VSR interactivo denominado SparkVSR que convierte a los fotogramas clave dispersos en una señal de control simple y expresiva. Específicamente, los usuarios pueden primero superresolver un pequeño conjunto de fotogramas clave utilizando cualquier modelo de superresolución de imagen (ISR) disponible, luego SparkVSR propaga los previos de los fotogramas clave a toda la secuencia de video mientras se mantiene anclado por el movimiento del video LR original. Concretamente, introducimos una canalización de entrenamiento de dos etapas latente-píxel condicionada por fotogramas clave que fusiona las latentes del video LR con las latentes de los fotogramas clave de alta resolución (HR) codificados de forma dispersa para aprender una propagación robusta entre espacios y refinar los detalles perceptuales. En el momento de la inferencia, SparkVSR admite una selección flexible de fotogramas clave (especificación manual, extracción de fotogramas-I del códec o muestreo aleatorio) y un mecanismo de guía libre de referencia que equilibra continuamente la adherencia a los fotogramas clave y la restauración ciega, garantizando un rendimiento robusto incluso cuando los fotogramas clave de referencia están ausentes o son imperfectos. Los experimentos en múltiples benchmarks de VSR demuestran una mejora en la consistencia temporal y una fuerte calidad de restauración, superando a los baselines hasta en un 24,6 %, 21,8 % y 5,6 % en CLIP-IQA, DOVER y MUSIQ, respectivamente, permitiendo una superresolución de video controlable y impulsada por fotogramas clave. Además, demostramos que SparkVSR es un marco genérico de procesamiento de video interactivo y condicionado por fotogramas clave, ya que puede aplicarse directamente a tareas no vistas, como la restauración de películas antiguas y la transferencia de estilo de video. Nuestra página del proyecto está disponible en: https://sparkvsr.github.io/
English
Video Super-Resolution (VSR) aims to restore high-quality video frames from low-resolution (LR) estimates, yet most existing VSR approaches behave like black boxes at inference time: users cannot reliably correct unexpected artifacts, but instead can only accept whatever the model produces. In this paper, we propose a novel interactive VSR framework dubbed SparkVSR that makes sparse keyframes a simple and expressive control signal. Specifically, users can first super-resolve or optionally a small set of keyframes using any off-the-shelf image super-resolution (ISR) model, then SparkVSR propagates the keyframe priors to the entire video sequence while remaining grounded by the original LR video motion. Concretely, we introduce a keyframe-conditioned latent-pixel two-stage training pipeline that fuses LR video latents with sparsely encoded HR keyframe latents to learn robust cross-space propagation and refine perceptual details. At inference time, SparkVSR supports flexible keyframe selection (manual specification, codec I-frame extraction, or random sampling) and a reference-free guidance mechanism that continuously balances keyframe adherence and blind restoration, ensuring robust performance even when reference keyframes are absent or imperfect. Experiments on multiple VSR benchmarks demonstrate improved temporal consistency and strong restoration quality, surpassing baselines by up to 24.6%, 21.8%, and 5.6% on CLIP-IQA, DOVER, and MUSIQ, respectively, enabling controllable, keyframe-driven video super-resolution. Moreover, we demonstrate that SparkVSR is a generic interactive, keyframe-conditioned video processing framework as it can be applied out of the box to unseen tasks such as old-film restoration and video style transfer. Our project page is available at: https://sparkvsr.github.io/
PDF122March 19, 2026