ChatPaper.aiChatPaper

SparkVSR: Super-resolução de Vídeo Interativa via Propagação de Quadros-chave Esparsos

SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation

March 17, 2026
Autores: Jiongze Yu, Xiangbo Gao, Pooja Verlani, Akshay Gadde, Yilin Wang, Balu Adsumilli, Zhengzhong Tu
cs.AI

Resumo

A Super-Resolução de Vídeo (VSR) tem como objetivo restaurar frames de vídeo de alta qualidade a partir de estimativas de baixa resolução (LR). No entanto, a maioria das abordagens de VSR existentes comporta-se como caixas pretas no momento da inferência: os utilizadores não podem corrigir de forma confiável artefactos inesperados, tendo de aceitar o que quer que o modelo produza. Neste artigo, propomos uma nova estrutura interativa de VSR, denominada SparkVSR, que torna os *keyframes* esparsos um sinal de controlo simples e expressivo. Especificamente, os utilizadores podem primeiro aplicar super-resolução a um pequeno conjunto de *keyframes* (opcionalmente) usando qualquer modelo de super-resolução de imagem (ISR) disponível; em seguida, o SparkVSR propaga os *priors* dos *keyframes* para toda a sequência de vídeo, mantendo-se ancorado pelo movimento original do vídeo LR. Concretamente, introduzimos um *pipeline* de treino de dois estágios (latente-pixel) condicionado por *keyframes* que funde as latências do vídeo LR com as latências codificadas esparsamente dos *keyframes* de alta resolução (HR) para aprender uma propagação robusta entre espaços e refinar detalhes percetivos. No tempo de inferência, o SparkVSR suporta uma seleção flexível de *keyframes* (especificação manual, extração de I-frames do *codec* ou amostragem aleatória) e um mecanismo de orientação sem referência que equilibra continuamente a aderência aos *keyframes* e a restauração cega, garantindo um desempenho robusto mesmo quando os *keyframes* de referência estão ausentes ou são imperfeitos. Experiências em múltiplos *benchmarks* de VSR demonstram uma consistência temporal melhorada e uma forte qualidade de restauração, superando as *baselines* em até 24,6%, 21,8% e 5,6% no CLIP-IQA, DOVER e MUSIQ, respetivamente, permitindo uma super-resolução de vídeo controlável e orientada por *keyframes*. Além disso, demonstramos que o SparkVSR é uma estrutura genérica de processamento de vídeo interativa e condicionada por *keyframes*, pois pode ser aplicada diretamente a tarefas não vistas, como a restauração de filmes antigos e a transferência de estilo de vídeo. A nossa página do projeto está disponível em: https://sparkvsr.github.io/
English
Video Super-Resolution (VSR) aims to restore high-quality video frames from low-resolution (LR) estimates, yet most existing VSR approaches behave like black boxes at inference time: users cannot reliably correct unexpected artifacts, but instead can only accept whatever the model produces. In this paper, we propose a novel interactive VSR framework dubbed SparkVSR that makes sparse keyframes a simple and expressive control signal. Specifically, users can first super-resolve or optionally a small set of keyframes using any off-the-shelf image super-resolution (ISR) model, then SparkVSR propagates the keyframe priors to the entire video sequence while remaining grounded by the original LR video motion. Concretely, we introduce a keyframe-conditioned latent-pixel two-stage training pipeline that fuses LR video latents with sparsely encoded HR keyframe latents to learn robust cross-space propagation and refine perceptual details. At inference time, SparkVSR supports flexible keyframe selection (manual specification, codec I-frame extraction, or random sampling) and a reference-free guidance mechanism that continuously balances keyframe adherence and blind restoration, ensuring robust performance even when reference keyframes are absent or imperfect. Experiments on multiple VSR benchmarks demonstrate improved temporal consistency and strong restoration quality, surpassing baselines by up to 24.6%, 21.8%, and 5.6% on CLIP-IQA, DOVER, and MUSIQ, respectively, enabling controllable, keyframe-driven video super-resolution. Moreover, we demonstrate that SparkVSR is a generic interactive, keyframe-conditioned video processing framework as it can be applied out of the box to unseen tasks such as old-film restoration and video style transfer. Our project page is available at: https://sparkvsr.github.io/
PDF122March 19, 2026