SwiftVR: Echtzeit-Einschritt-Generative Videorestaurierung

Zusammenfassung

Echtzeit-Videowiederherstellung (VR) für Live-Streams erfordert hochauflösende Ausgaben unter strengen Latenzanforderungen pro Frame. Bestehende einschrittige diffusionsbasierte VR-Modelle sind aufgrund zweier Hauptengpässe weiterhin schwer auf Verbraucher-GPUs einzusetzen: der quadratischen räumlichen Aufmerksamkeit bei hohen Auflösungen und dem Latenz- und Speicher-Overhead großer Video-Autoencoder. Wir stellen SwiftVR vor, ein Streaming-Einschritt-generatives VR-Framework, das beide Engpässe unter einem kausalen chunk-weisen Protokoll reduziert. Für die Aufmerksamkeit sammelt maskenfreie Self-Attention mit verschobenen Fenstern jedes räumliche Fenster durch deterministische Indexierung in einen dichten Tensor, wobei alle Aufmerksamkeitsaufrufe auf dem dichten Pfad der skalierten Punktprodukt-Aufmerksamkeit (SDPA) verbleiben – ohne Masken, zyklische Verschiebungen, Padding oder hardware-spezifische sparse Kerne. Da SwiftVR nur standardmäßige dichte SDPA-Aufrufe verwendet, lässt sich das trainierte Modell ohne Nachtraining oder benutzerdefinierte Kerne auf Verbraucher-GPUs übertragen. Für die Autoencoder ermöglicht ein leichter Restoration-bewusster Autoencoder eine schnelle chunk-weise Dekodierung bei gleichzeitiger Erhaltung der Rekonstruktionsqualität. Auf einer einzelnen H100 erreicht SwiftVR etwa 31 FPS bei 2560×1440 und etwa 14 FPS bei 3840×2160, während alle verglichenen diffusionsbasierten VR-Baselines bei 4K das Speicherlimit überschreiten. Auf einer Consumer-RTX-5090 erreicht SwiftVR etwa 26 FPS bei 1920×1080. Unseres Wissens nach ist SwiftVR das erste generative VR-Modell, das Echtzeit-1080p-Streaming auf einer Verbraucher-GPU ermöglicht und dabei hohe no-reference-perzeptuelle Qualität mit geringeren Inferenzkosten erzielt. Das Projekt ist verfügbar unter https://h-oliday.github.io/SwiftVR.

English

Real-time video restoration (VR) for live streams requires high-resolution outputs under strict per-frame latency constraints. Existing one-step diffusion-based VR models remain difficult to deploy on consumer-grade GPUs due to two main bottlenecks: quadratic spatial attention at high resolutions and the latency-memory overhead of large video autoencoders. We present SwiftVR, a streaming one-step generative VR framework that reduces both bottlenecks under a causal chunk-wise protocol. For attention, mask-free shifted-window self-attention gathers each spatial window into a dense tensor via deterministic indexing, keeping all attention calls on the dense scaled dot-product attention path without masks, cyclic shifts, padding, or hardware-specific sparse kernels. Because SwiftVR uses only standard dense SDPA calls, the trained model transfers to consumer GPUs without retraining or custom kernels. For autoencoding, a lightweight Restoration-aware Autoencoder enables fast chunk-wise decoding while preserving reconstruction quality. On a single H100, SwiftVR sustains 31~FPS at 2560x1440 and 14~FPS at 3840x2160, whereas all compared diffusion-based VR baselines exceed the memory limit at 4K. On a consumer RTX~5090, SwiftVR reaches 26~FPS at 1920x1080. To our knowledge, SwiftVR is the first generative VR model to achieve real-time 1080p streaming on a consumer-grade GPU, while attaining strong no-reference perceptual quality with lower inference cost. Project is available at https://h-oliday.github.io/SwiftVR.