SwiftVR: Одношаговое генеративное восстановление видео в реальном времени

Аннотация

Потоковое видеовосстановление (VR) для прямых трансляций требует высокого разрешения выходных данных при строгих ограничениях на задержку на кадр. Существующие одношаговые диффузионные модели VR остаются сложными для развертывания на потребительских GPU из-за двух основных узких мест: квадратичное пространственное внимание при высоких разрешениях и накладные расходы по задержке и памяти, связанные с большими видеоавтоэнкодерами. Мы представляем SwiftVR — потоковый одношаговый генеративный фреймворк VR, который сокращает оба узких места в рамках каузального посегментного протокола. Для внимания применяется самовнимание со сдвинутыми окнами без масок, которое собирает каждое пространственное окно в плотный тензор с помощью детерминированной индексации, сохраняя все вызовы внимания на пути плотного масштабированного скалярного произведения внимания без масок, циклических сдвигов, дополнений или аппаратно-зависимых разреженных ядер. Поскольку SwiftVR использует только стандартные вызовы плотного SDPA, обученная модель переносится на потребительские GPU без дообучения или пользовательских ядер. Для автоэнкодирования легковесный автоэнкодер, ориентированный на восстановление, обеспечивает быстрый посегментный декодинг при сохранении качества реконструкции. На одном H100 SwiftVR поддерживает 31 FPS при разрешении 2560×1440 и 14 FPS при разрешении 3840×2160, тогда как все сравниваемые базовые диффузионные модели VR превышают лимит памяти при 4K. На потребительском RTX 5090 SwiftVR достигает 26 FPS при разрешении 1920×1080. Насколько нам известно, SwiftVR является первой генеративной моделью VR, обеспечивающей потоковую передачу 1080p в реальном времени на потребительском GPU, при этом достигая высокого безэталонного перцептуального качества с меньшими затратами на инференс. Проект доступен по адресу https://h-oliday.github.io/SwiftVR.

English

Real-time video restoration (VR) for live streams requires high-resolution outputs under strict per-frame latency constraints. Existing one-step diffusion-based VR models remain difficult to deploy on consumer-grade GPUs due to two main bottlenecks: quadratic spatial attention at high resolutions and the latency-memory overhead of large video autoencoders. We present SwiftVR, a streaming one-step generative VR framework that reduces both bottlenecks under a causal chunk-wise protocol. For attention, mask-free shifted-window self-attention gathers each spatial window into a dense tensor via deterministic indexing, keeping all attention calls on the dense scaled dot-product attention path without masks, cyclic shifts, padding, or hardware-specific sparse kernels. Because SwiftVR uses only standard dense SDPA calls, the trained model transfers to consumer GPUs without retraining or custom kernels. For autoencoding, a lightweight Restoration-aware Autoencoder enables fast chunk-wise decoding while preserving reconstruction quality. On a single H100, SwiftVR sustains 31~FPS at 2560x1440 and 14~FPS at 3840x2160, whereas all compared diffusion-based VR baselines exceed the memory limit at 4K. On a consumer RTX~5090, SwiftVR reaches 26~FPS at 1920x1080. To our knowledge, SwiftVR is the first generative VR model to achieve real-time 1080p streaming on a consumer-grade GPU, while attaining strong no-reference perceptual quality with lower inference cost. Project is available at https://h-oliday.github.io/SwiftVR.