Stream-DiffVSR: Super-Resolução de Vídeo Transmissível de Baixa Latência via Difusão Auto-Regressiva

Resumo

Os métodos de super-resolução de vídeo baseados em difusão (VSR) alcançam forte qualidade perceptual, mas permanecem impraticáveis para configurações sensíveis à latência devido à dependência de quadros futuros e à custosa eliminação de ruído em múltiplas etapas. Propomos o Stream-DiffVSR, uma estrutura de difusão com condicionamento causal para VSR online eficiente. Operando estritamente em quadros passados, ele combina um removedor de ruído destilado de quatro etapas para inferência rápida, um módulo de Orientação Temporal Autorregressiva (ARTG) que injeta pistas alinhadas ao movimento durante a eliminação de ruído latente, e um decodificador leve com consciência temporal com um Módulo de Processador Temporal (TPM) que melhora o detalhe e a coerência temporal. O Stream-DiffVSR processa quadros em 720p em 0.328 segundos numa GPU RTX4090 e supera significativamente os métodos anteriores baseados em difusão. Em comparação com o estado da arte online TMP, ele aumenta a qualidade perceptual (LPIPS +0.095) enquanto reduz a latência em mais de 130 vezes. O Stream-DiffVSR alcança a menor latência reportada para VSR baseado em difusão, reduzindo o atraso inicial de mais de 4600 segundos para 0.328 segundos, tornando-se assim o primeiro método de VSR por difusão adequado para implantação online de baixa latência. Página do projeto: https://jamichss.github.io/stream-diffvsr-project-page/

English

Diffusion-based video super-resolution (VSR) methods achieve strong perceptual quality but remain impractical for latency-sensitive settings due to reliance on future frames and expensive multi-step denoising. We propose Stream-DiffVSR, a causally conditioned diffusion framework for efficient online VSR. Operating strictly on past frames, it combines a four-step distilled denoiser for fast inference, an Auto-regressive Temporal Guidance (ARTG) module that injects motion-aligned cues during latent denoising, and a lightweight temporal-aware decoder with a Temporal Processor Module (TPM) that enhances detail and temporal coherence. Stream-DiffVSR processes 720p frames in 0.328 seconds on an RTX4090 GPU and significantly outperforms prior diffusion-based methods. Compared with the online SOTA TMP, it boosts perceptual quality (LPIPS +0.095) while reducing latency by over 130x. Stream-DiffVSR achieves the lowest latency reported for diffusion-based VSR, reducing initial delay from over 4600 seconds to 0.328 seconds, thereby making it the first diffusion VSR method suitable for low-latency online deployment. Project page: https://jamichss.github.io/stream-diffvsr-project-page/

Stream-DiffVSR: Super-Resolução de Vídeo Transmissível de Baixa Latência via Difusão Auto-Regressiva

Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion

Resumo

Support