SwiftVR: Restauración de video generativa en un paso y tiempo real

Resumen

La restauración de video (VR) en tiempo real para transmisiones en vivo requiere salidas de alta resolución bajo estrictas restricciones de latencia por fotograma. Los modelos existentes de VR basados en difusión de un solo paso siguen siendo difíciles de implementar en GPU de consumo debido a dos cuellos de botella principales: la atención espacial cuadrática en altas resoluciones y la sobrecarga de latencia y memoria de los grandes autoencoders de video. Presentamos SwiftVR, un marco generativo de VR en un solo paso para transmisión en vivo que reduce ambos cuellos de botella bajo un protocolo causal por fragmentos. Para la atención, la autoatención de ventana desplazada sin máscara agrupa cada ventana espacial en un tensor denso mediante indexación determinista, manteniendo todas las llamadas de atención en la ruta densa de atención de producto escalar escalado sin máscaras, desplazamientos cíclicos, relleno ni núcleos dispersos específicos del hardware. Dado que SwiftVR utiliza únicamente llamadas estándar de SDPA denso, el modelo entrenado se transfiere a GPU de consumo sin necesidad de reentrenamiento ni núcleos personalizados. Para la auto codificación, un Autoencoder consciente de la restauración ligero permite una decodificación rápida por fragmentos mientras preserva la calidad de reconstrucción. En una sola H100, SwiftVR mantiene aproximadamente 31 FPS a 2560x1440 y 14 FPS a 3840x2160, mientras que todos los modelos de VR basados en difusión comparados superan el límite de memoria en 4K. En una RTX 5090 de consumo, SwiftVR alcanza 26 FPS a 1920x1080. Hasta donde sabemos, SwiftVR es el primer modelo generativo de VR que logra transmisión en tiempo real a 1080p en una GPU de consumo, al tiempo que alcanza una sólida calidad perceptual sin referencia con un menor costo de inferencia. El proyecto está disponible en https://h-oliday.github.io/SwiftVR.

English

Real-time video restoration (VR) for live streams requires high-resolution outputs under strict per-frame latency constraints. Existing one-step diffusion-based VR models remain difficult to deploy on consumer-grade GPUs due to two main bottlenecks: quadratic spatial attention at high resolutions and the latency-memory overhead of large video autoencoders. We present SwiftVR, a streaming one-step generative VR framework that reduces both bottlenecks under a causal chunk-wise protocol. For attention, mask-free shifted-window self-attention gathers each spatial window into a dense tensor via deterministic indexing, keeping all attention calls on the dense scaled dot-product attention path without masks, cyclic shifts, padding, or hardware-specific sparse kernels. Because SwiftVR uses only standard dense SDPA calls, the trained model transfers to consumer GPUs without retraining or custom kernels. For autoencoding, a lightweight Restoration-aware Autoencoder enables fast chunk-wise decoding while preserving reconstruction quality. On a single H100, SwiftVR sustains 31~FPS at 2560x1440 and 14~FPS at 3840x2160, whereas all compared diffusion-based VR baselines exceed the memory limit at 4K. On a consumer RTX~5090, SwiftVR reaches 26~FPS at 1920x1080. To our knowledge, SwiftVR is the first generative VR model to achieve real-time 1080p streaming on a consumer-grade GPU, while attaining strong no-reference perceptual quality with lower inference cost. Project is available at https://h-oliday.github.io/SwiftVR.