Stream-DiffVSR: Super-Risoluzione Video Streamabile a Bassa Latenza tramite Diffusione Auto-Regressiva

Abstract

I metodi di super-risoluzione video basati su diffusione (VSR) raggiungono un'elevata qualità percettiva, ma rimangono impraticabili per contesti sensibili alla latenza a causa della dipendenza dai frame futuri e della costosa denoising multi-step. Proponiamo Stream-DiffVSR, un framework di diffusione condizionato causalmente per un VSR online efficiente. Operando rigorosamente sui frame passati, combina un denoiser distillato a quattro step per un'inferenza veloce, un modulo di Guida Temporale Auto-regressiva (ARTG) che inietta segnali allineati al movimento durante la denoising latente, e un decoder leggero con consapevolezza temporale dotato di un Modulo di Elaborazione Temporale (TPM) che migliora i dettagli e la coerenza temporale. Stream-DiffVSR elabora frame 720p in 0,328 secondi su una GPU RTX4090 e supera significativamente i precedenti metodi basati su diffusione. Rispetto allo stato dell'arte online TMP, migliora la qualità percettiva (LPIPS +0,095) riducendo al contempo la latenza di oltre 130 volte. Stream-DiffVSR raggiunge la latenza più bassa mai riportata per il VSR basato su diffusione, riducendo il ritardo iniziale da oltre 4600 secondi a 0,328 secondi, diventando così il primo metodo di VSR a diffusione adatto per il deployment online a bassa latenza. Pagina del progetto: https://jamichss.github.io/stream-diffvsr-project-page/

English

Diffusion-based video super-resolution (VSR) methods achieve strong perceptual quality but remain impractical for latency-sensitive settings due to reliance on future frames and expensive multi-step denoising. We propose Stream-DiffVSR, a causally conditioned diffusion framework for efficient online VSR. Operating strictly on past frames, it combines a four-step distilled denoiser for fast inference, an Auto-regressive Temporal Guidance (ARTG) module that injects motion-aligned cues during latent denoising, and a lightweight temporal-aware decoder with a Temporal Processor Module (TPM) that enhances detail and temporal coherence. Stream-DiffVSR processes 720p frames in 0.328 seconds on an RTX4090 GPU and significantly outperforms prior diffusion-based methods. Compared with the online SOTA TMP, it boosts perceptual quality (LPIPS +0.095) while reducing latency by over 130x. Stream-DiffVSR achieves the lowest latency reported for diffusion-based VSR, reducing initial delay from over 4600 seconds to 0.328 seconds, thereby making it the first diffusion VSR method suitable for low-latency online deployment. Project page: https://jamichss.github.io/stream-diffvsr-project-page/

Stream-DiffVSR: Super-Risoluzione Video Streamabile a Bassa Latenza tramite Diffusione Auto-Regressiva

Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion

Abstract

Support