SwiftVR : Restauration générative de vidéos en une étape et en temps réel

Résumé

La restauration vidéo en temps réel (VR) pour les flux en direct nécessite des sorties haute résolution tout en respectant des contraintes strictes de latence par image. Les modèles de VR basés sur la diffusion en une étape restent difficiles à déployer sur des GPU grand public en raison de deux goulots d’étranglement principaux : l’attention spatiale quadratique à hautes résolutions et la surcharge de latence-mémoire liée aux grands autoencodeurs vidéo. Nous présentons SwiftVR, un framework de VR générative en une étape et en flux continu qui réduit ces deux goulots d’étranglement grâce à un protocole causal par segments. Pour l’attention, l’auto-attention à fenêtre décalée sans masque regroupe chaque fenêtre spatiale en un tenseur dense via une indexation déterministe, maintenant tous les appels d’attention sur le chemin de l’attention dense par produit scalaire sans masques, décalages cycliques, remplissage ou noyaux creux spécifiques au matériel. Étant donné que SwiftVR utilise uniquement des appels SDPA denses standards, le modèle entraîné se transfère sur des GPU grand public sans réentraînement ni noyaux personnalisés. Pour l’autoencodage, un autoencodeur léger sensible à la restauration permet un décodage rapide par segments tout en préservant la qualité de reconstruction. Sur un seul H100, SwiftVR maintient 31 FPS en 2560x1440 et 14 FPS en 3840x2160, tandis que tous les modèles de VR basés sur la diffusion comparés dépassent la limite mémoire en 4K. Sur un RTX 5090 grand public, SwiftVR atteint 26 FPS en 1920x1080. À notre connaissance, SwiftVR est le premier modèle de VR générative à atteindre un streaming 1080p en temps réel sur un GPU grand public, tout en offrant une qualité perceptuelle sans référence élevée avec un coût d’inférence réduit. Le projet est disponible à l’adresse https://h-oliday.github.io/SwiftVR.

English

Real-time video restoration (VR) for live streams requires high-resolution outputs under strict per-frame latency constraints. Existing one-step diffusion-based VR models remain difficult to deploy on consumer-grade GPUs due to two main bottlenecks: quadratic spatial attention at high resolutions and the latency-memory overhead of large video autoencoders. We present SwiftVR, a streaming one-step generative VR framework that reduces both bottlenecks under a causal chunk-wise protocol. For attention, mask-free shifted-window self-attention gathers each spatial window into a dense tensor via deterministic indexing, keeping all attention calls on the dense scaled dot-product attention path without masks, cyclic shifts, padding, or hardware-specific sparse kernels. Because SwiftVR uses only standard dense SDPA calls, the trained model transfers to consumer GPUs without retraining or custom kernels. For autoencoding, a lightweight Restoration-aware Autoencoder enables fast chunk-wise decoding while preserving reconstruction quality. On a single H100, SwiftVR sustains 31~FPS at 2560x1440 and 14~FPS at 3840x2160, whereas all compared diffusion-based VR baselines exceed the memory limit at 4K. On a consumer RTX~5090, SwiftVR reaches 26~FPS at 1920x1080. To our knowledge, SwiftVR is the first generative VR model to achieve real-time 1080p streaming on a consumer-grade GPU, while attaining strong no-reference perceptual quality with lower inference cost. Project is available at https://h-oliday.github.io/SwiftVR.