SwiftVR: Restauração de Vídeo Generativa em Tempo Real de Uma Única Etapa

Resumo

A restauração de vídeo (VR) em tempo real para transmissões ao vivo exige saídas de alta resolução sob restrições estritas de latência por quadro. Os modelos VR existentes baseados em difusão de etapa única permanecem difíceis de implantar em GPUs de consumo devido a dois principais gargalos: a atenção espacial quadrática em altas resoluções e a sobrecarga de latência-memória de grandes autoencoders de vídeo. Apresentamos o SwiftVR, um framework generativo de VR em streaming de etapa única que reduz ambos os gargalos sob um protocolo causal por bloco. Para a atenção, a autoatenção sem máscara com janela deslocada agrupa cada janela espacial em um tensor denso via indexação determinística, mantendo todas as chamadas de atenção no caminho denso de atenção de produto escalar sem máscaras, deslocamentos cíclicos, preenchimento ou kernels esparsos específicos de hardware. Como o SwiftVR utiliza apenas chamadas SDPA densas padrão, o modelo treinado é transferido para GPUs de consumo sem retreinamento ou kernels personalizados. Para a auto codificação, um Autoencoder Ciente de Restauração leve permite decodificação rápida por bloco, preservando a qualidade de reconstrução. Em uma única H100, o SwiftVR sustenta 31 FPS em 2560x1440 e 14 FPS em 3840x2160, enquanto todas as linhas de base VR baseadas em difusão comparadas excedem o limite de memória em 4K. Em uma RTX 5090 de consumo, o SwiftVR atinge 26 FPS em 1920x1080. Até onde sabemos, o SwiftVR é o primeiro modelo generativo de VR a alcançar streaming em tempo real em 1080p em uma GPU de consumo, além de obter forte qualidade perceptual sem referência com menor custo de inferência. O projeto está disponível em https://h-oliday.github.io/SwiftVR.

English

Real-time video restoration (VR) for live streams requires high-resolution outputs under strict per-frame latency constraints. Existing one-step diffusion-based VR models remain difficult to deploy on consumer-grade GPUs due to two main bottlenecks: quadratic spatial attention at high resolutions and the latency-memory overhead of large video autoencoders. We present SwiftVR, a streaming one-step generative VR framework that reduces both bottlenecks under a causal chunk-wise protocol. For attention, mask-free shifted-window self-attention gathers each spatial window into a dense tensor via deterministic indexing, keeping all attention calls on the dense scaled dot-product attention path without masks, cyclic shifts, padding, or hardware-specific sparse kernels. Because SwiftVR uses only standard dense SDPA calls, the trained model transfers to consumer GPUs without retraining or custom kernels. For autoencoding, a lightweight Restoration-aware Autoencoder enables fast chunk-wise decoding while preserving reconstruction quality. On a single H100, SwiftVR sustains 31~FPS at 2560x1440 and 14~FPS at 3840x2160, whereas all compared diffusion-based VR baselines exceed the memory limit at 4K. On a consumer RTX~5090, SwiftVR reaches 26~FPS at 1920x1080. To our knowledge, SwiftVR is the first generative VR model to achieve real-time 1080p streaming on a consumer-grade GPU, while attaining strong no-reference perceptual quality with lower inference cost. Project is available at https://h-oliday.github.io/SwiftVR.