Stream-DiffVSR: Superresolución de Video Transmisible de Baja Latencia mediante Difusión Auto-Regresiva
Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion
December 29, 2025
Autores: Hau-Shiang Shiu, Chin-Yang Lin, Zhixiang Wang, Chi-Wei Hsiao, Po-Fan Yu, Yu-Chih Chen, Yu-Lun Liu
cs.AI
Resumen
Los métodos de super-resolución de vídeo (VSR) basados en difusión logran una alta calidad perceptual, pero siguen siendo poco prácticos para entornos sensibles a la latencia debido a su dependencia de fotogramas futuros y a la costosa eliminación de ruido multi-etapa. Proponemos Stream-DiffVSR, un marco de difusión condicionado causalmente para VSR online eficiente. Operando estrictamente sobre fotogramas pasados, combina un desruidificador destilado de cuatro pasos para inferencia rápida, un módulo de Guía Temporal Auto-regresiva (ARTG) que inyecta señales alineadas con el movimiento durante la eliminación de ruido latente, y un decodificador ligero con conciencia temporal con un Módulo Procesador Temporal (TPM) que mejora el detalle y la coherencia temporal. Stream-DiffVSR procesa fotogramas 720p en 0.328 segundos en una GPU RTX4090 y supera significativamente a métodos previos basados en difusión. En comparación con el estado del arte online TMP, mejora la calidad perceptual (LPIPS +0.095) mientras reduce la latencia en más de 130x. Stream-DiffVSR logra la latencia más baja reportada para VSR basado en difusión, reduciendo el retardo inicial de más de 4600 segundos a 0.328 segundos, convirtiéndose así en el primer método VSR de difusión adecuado para despliegue online de baja latencia. Página del proyecto: https://jamichss.github.io/stream-diffvsr-project-page/
English
Diffusion-based video super-resolution (VSR) methods achieve strong perceptual quality but remain impractical for latency-sensitive settings due to reliance on future frames and expensive multi-step denoising. We propose Stream-DiffVSR, a causally conditioned diffusion framework for efficient online VSR. Operating strictly on past frames, it combines a four-step distilled denoiser for fast inference, an Auto-regressive Temporal Guidance (ARTG) module that injects motion-aligned cues during latent denoising, and a lightweight temporal-aware decoder with a Temporal Processor Module (TPM) that enhances detail and temporal coherence. Stream-DiffVSR processes 720p frames in 0.328 seconds on an RTX4090 GPU and significantly outperforms prior diffusion-based methods. Compared with the online SOTA TMP, it boosts perceptual quality (LPIPS +0.095) while reducing latency by over 130x. Stream-DiffVSR achieves the lowest latency reported for diffusion-based VSR, reducing initial delay from over 4600 seconds to 0.328 seconds, thereby making it the first diffusion VSR method suitable for low-latency online deployment. Project page: https://jamichss.github.io/stream-diffvsr-project-page/