ChatPaper.aiChatPaper

Stream-DiffVSR : Super-résolution vidéo fluxable à faible latence via diffusion auto-régressive

Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion

December 29, 2025
papers.authors: Hau-Shiang Shiu, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Po-Fan Yu, Yu-Chih Chen, Yu-Lun Liu
cs.AI

papers.abstract

Les méthodes de super-résolution vidéo basées sur la diffusion (VSR) obtiennent une qualité perceptuelle élevée mais restent peu pratiques pour les applications sensibles à la latence en raison de leur dépendance aux images futures et à un débruîtage multi-étapes coûteux. Nous proposons Stream-DiffVSR, un cadre de diffusion à conditionnement causal pour la VSR en ligne efficace. Fonctionnant strictement sur les images passées, il combine un débruitiseur distillé à quatre étapes pour une inférence rapide, un module de guidage temporel autorégressif (ARTG) qui injecte des indices alignés sur le mouvement durant le débruîtage latent, et un décodeur temporel léger avec un module de traitement temporel (TPM) qui améliore les détails et la cohérence temporelle. Stream-DiffVSR traite des images 720p en 0,328 seconde sur une GPU RTX4090 et surpasse significativement les méthodes précédentes basées sur la diffusion. Comparé à l'état de l'art en ligne TMP, il améliore la qualité perceptuelle (LPIPS +0,095) tout en réduisant la latence de plus de 130 fois. Stream-DiffVSR atteint la latence la plus faible rapportée pour la VSR par diffusion, réduisant le délai initial de plus de 4600 secondes à 0,328 seconde, ce qui en fait la première méthode de VSR par diffusion adaptée à un déploiement en ligne à faible latence. Page du projet : https://jamichss.github.io/stream-diffvsr-project-page/
English
Diffusion-based video super-resolution (VSR) methods achieve strong perceptual quality but remain impractical for latency-sensitive settings due to reliance on future frames and expensive multi-step denoising. We propose Stream-DiffVSR, a causally conditioned diffusion framework for efficient online VSR. Operating strictly on past frames, it combines a four-step distilled denoiser for fast inference, an Auto-regressive Temporal Guidance (ARTG) module that injects motion-aligned cues during latent denoising, and a lightweight temporal-aware decoder with a Temporal Processor Module (TPM) that enhances detail and temporal coherence. Stream-DiffVSR processes 720p frames in 0.328 seconds on an RTX4090 GPU and significantly outperforms prior diffusion-based methods. Compared with the online SOTA TMP, it boosts perceptual quality (LPIPS +0.095) while reducing latency by over 130x. Stream-DiffVSR achieves the lowest latency reported for diffusion-based VSR, reducing initial delay from over 4600 seconds to 0.328 seconds, thereby making it the first diffusion VSR method suitable for low-latency online deployment. Project page: https://jamichss.github.io/stream-diffvsr-project-page/
PDF291December 31, 2025