ChatPaper.aiChatPaper

Stream-DiffVSR: Laag-latency stroombaar video-superresolutie via auto-regressieve diffusie

Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion

December 29, 2025
Auteurs: Hau-Shiang Shiu, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Po-Fan Yu, Yu-Chih Chen, Yu-Lun Liu
cs.AI

Samenvatting

Diffusiegebaseerde video-superresolutie (VSR)-methoden bereiken een sterke perceptuele kwaliteit, maar blijven onpraktisch voor latentiegevoelige toepassingen vanwege hun afhankelijkheid van toekomstige frames en dure meerstaps-denoising. Wij stellen Stream-DiffVSR voor, een causaal geconditioneerd diffusieraamwerk voor efficiënte online VSR. De methode werkt strikt op eerdere frames en combineert een gedistilleerde denoiser in vier stappen voor snelle inferentie, een Auto-regressieve Temporele Begeleidingsmodule (ARTG) die beweging-uitgelijnde aanwijzingen injecteert tijdens latente denoising, en een lichtgewicht temporeel-bewuste decoder met een Temporele Verwerkingsmodule (TPM) die detail en temporele coherentie verbetert. Stream-DiffVSR verwerkt 720p-frames in 0,328 seconden op een RTX4090 GPU en presteert aanzienlijk beter dan eerdere diffusiegebaseerde methoden. Vergeleken met de online SOTA TMP verbetert het de perceptuele kwaliteit (LPIPS +0,095) terwijl de latentie met meer dan 130x wordt verminderd. Stream-DiffVSR behaalt de laagste gerapporteerde latentie voor diffusiegebaseerde VSR, waardoor de initiële vertraging wordt teruggebracht van meer dan 4600 seconden naar 0,328 seconden, en is daarmee de eerste diffusie-VSR-methode die geschikt is voor online inzet met lage latentie. Projectpagina: https://jamichss.github.io/stream-diffvsr-project-page/
English
Diffusion-based video super-resolution (VSR) methods achieve strong perceptual quality but remain impractical for latency-sensitive settings due to reliance on future frames and expensive multi-step denoising. We propose Stream-DiffVSR, a causally conditioned diffusion framework for efficient online VSR. Operating strictly on past frames, it combines a four-step distilled denoiser for fast inference, an Auto-regressive Temporal Guidance (ARTG) module that injects motion-aligned cues during latent denoising, and a lightweight temporal-aware decoder with a Temporal Processor Module (TPM) that enhances detail and temporal coherence. Stream-DiffVSR processes 720p frames in 0.328 seconds on an RTX4090 GPU and significantly outperforms prior diffusion-based methods. Compared with the online SOTA TMP, it boosts perceptual quality (LPIPS +0.095) while reducing latency by over 130x. Stream-DiffVSR achieves the lowest latency reported for diffusion-based VSR, reducing initial delay from over 4600 seconds to 0.328 seconds, thereby making it the first diffusion VSR method suitable for low-latency online deployment. Project page: https://jamichss.github.io/stream-diffvsr-project-page/
PDF291December 31, 2025