SANA-Streaming : Montage vidéo en streaming en temps réel avec un Transformateur de Diffusion Hybride

Résumé

L'édition vidéo-à-vidéo en streaming en temps réel (V2V) est cruciale pour les applications interactives telles que la diffusion en direct et les jeux vidéo, mais elle reste un défi de taille en raison des exigences strictes en matière de cohérence temporelle et de débit d'inférence. Dans cet article, nous présentons SANA-Streaming, un cadre co-conçu système-algorithme pour l'édition vidéo en streaming en temps réel et haute résolution sur des GPU grand public, avec les trois conceptions fondamentales suivantes : (1) L'architecture de Transformers de Diffusion Hybride introduit l'attention softmax dans une partie des blocs pour améliorer les capacités de modélisation locale tout en préservant l'efficacité des couches linéaires. (2) La Régularisation par Cycle-Inverse est une nouvelle stratégie d'entraînement qui impose la cohérence sémantique en prédisant les images sources à partir du contenu généré via le flow matching, améliorant la cohérence temporelle sans nécessiter de longues vidéos éditées appariées. (3) La Co-conception Système Efficace combine des noyaux GDN fusionnés et la Quantification en Précision Mixte (QPM) optimisée pour l'architecture NVIDIA Blackwell (RTX 5090). En profilant le débit réel, notre QPM maximise l'utilisation des Tensor Cores tout en maintenant la qualité de génération. Le système résultant atteint une édition en temps réel à la résolution 1280 × 704 à 24 FPS de bout en bout sur un seul GPU RTX 5090, avec le cœur DiT fonctionnant à 58 FPS. Les résultats expérimentaux démontrent que notre approche de co-conception surpasse significativement les méthodes SOTA existantes en termes de cohérence temporelle et de débit système.

English

Real-time streaming video-to-video editing (V2V) is critical for interactive applications such as live broadcasting and gaming, yet it remains a formidable challenge due to the stringent requirements for temporal consistency and inference throughput. In this paper, we present SANA-Streaming, a system-algorithm co-designed framework for high-resolution, real-time streaming video editing on consumer GPUs, with the following three core designs: (1) Hybrid Diffusion Transformer architecture introduces softmax attention in part of the blocks to improve local modeling capabilities while preserving the efficiency of linear layers. (2) Cycle-Reverse Regularization is a novel training strategy that enforces semantic consistency by predicting source frames from generated content via flow matching, improving temporal consistency without requiring paired long edited videos. (3) Efficient System Co-design combines fused GDN kernels and Mixed-Precision Quantization (MPQ) optimized for the NVIDIA Blackwell (RTX 5090) architecture. By profiling real-world throughput, our MPQ maximizes Tensor Core utilization while maintaining generation quality. The resulting system achieves real-time 1280 x 704 resolution editing at 24 end-to-end FPS on a single RTX 5090 GPU, with the DiT core running at 58 FPS. Experimental results demonstrate that our co-design approach significantly outperforms existing SOTA methods in both temporal coherence and system throughput.