SANA-Streaming: Edição de Vídeo em Streaming em Tempo Real com Transformador de Difusão Híbrido
SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer
May 28, 2026
Autores: Yuyang Zhao, Yicheng Pan, Qiyuan He, Jincheng Yu, Junsong Chen, Tian Ye, Haozhe Liu, Enze Xie, Song Han
cs.AI
Resumo
A edição em tempo real de vídeo para vídeo (V2V) em streaming é essencial para aplicações interativas como transmissão ao vivo e jogos, mas ainda representa um desafio formidável devido às rigorosas exigências de consistência temporal e rendimento de inferência. Neste artigo, apresentamos o SANA-Streaming, uma estrutura co-projetada de sistema e algoritmo para edição de vídeo em streaming de alta resolução e em tempo real em GPUs consumidor, com os três seguintes designs centrais: (1) Uma arquitetura de Transformer de Difusão Híbrida introduz atenção softmax em parte dos blocos para aprimorar as capacidades de modelagem local, preservando ao mesmo tempo a eficiência das camadas lineares. (2) A Regularização por Ciclo Reverso é uma estratégia de treinamento inovadora que impõe consistência semântica ao prever quadros fonte a partir do conteúdo gerado via flow matching, melhorando a consistência temporal sem exigir pares de vídeos editados longos. (3) O Co-design Eficiente de Sistema combina kernels GDN fundidos e Quantização de Precisão Mista (MPQ) otimizada para a arquitetura NVIDIA Blackwell (RTX 5090). Ao perfilar o rendimento em cenários reais, nosso MPQ maximiza a utilização dos Tensor Cores enquanto mantém a qualidade da geração. O sistema resultante alcança edição em tempo real na resolução 1280 x 704 a 24 FPS completos (end-to-end) em uma única GPU RTX 5090, com o núcleo DiT operando a 58 FPS. Os resultados experimentais demonstram que nossa abordagem de co-design supera significativamente os métodos de última geração (SOTA) existentes tanto em coerência temporal quanto em rendimento do sistema.
English
Real-time streaming video-to-video editing (V2V) is critical for interactive applications such as live broadcasting and gaming, yet it remains a formidable challenge due to the stringent requirements for temporal consistency and inference throughput. In this paper, we present SANA-Streaming, a system-algorithm co-designed framework for high-resolution, real-time streaming video editing on consumer GPUs, with the following three core designs: (1) Hybrid Diffusion Transformer architecture introduces softmax attention in part of the blocks to improve local modeling capabilities while preserving the efficiency of linear layers. (2) Cycle-Reverse Regularization is a novel training strategy that enforces semantic consistency by predicting source frames from generated content via flow matching, improving temporal consistency without requiring paired long edited videos. (3) Efficient System Co-design combines fused GDN kernels and Mixed-Precision Quantization (MPQ) optimized for the NVIDIA Blackwell (RTX 5090) architecture. By profiling real-world throughput, our MPQ maximizes Tensor Core utilization while maintaining generation quality. The resulting system achieves real-time 1280 x 704 resolution editing at 24 end-to-end FPS on a single RTX 5090 GPU, with the DiT core running at 58 FPS. Experimental results demonstrate that our co-design approach significantly outperforms existing SOTA methods in both temporal coherence and system throughput.