SANA-Streaming: редактирование потокового видео в реальном времени с помощью гибридного диффузионного трансформера

Аннотация

Редактирование видео в реальном времени (V2V) имеет критическое значение для интерактивных приложений, таких как прямые трансляции и игры, однако остается сложной задачей из-за строгих требований к временной согласованности и пропускной способности инференса. В этой статье мы представляем SANA-Streaming — совместно разработанную системно-алгоритмическую платформу для высококачественного редактирования потокового видео в реальном времени с высоким разрешением на потребительских GPU, основанную на трех ключевых компонентах: (1) Гибридная архитектура Diffusion Transformer, которая вводит softmax-внимание в части блоков для улучшения возможностей локального моделирования при сохранении эффективности линейных слоев. (2) Регуляризация с циклом реверса (Cycle-Reverse Regularization) — новый метод обучения, обеспечивающий семантическую согласованность путем предсказания исходных кадров из сгенерированного контента с помощью согласования потоков (flow matching), что улучшает временную согласованность без необходимости парных длинных отредактированных видео. (3) Эффективная совместная оптимизация системы, объединяющая fused GDN-ядра и смешанно-квантованные вычисления (Mixed-Precision Quantization, MPQ), оптимизированные для архитектуры NVIDIA Blackwell (RTX 5090). Профилируя реальную пропускную способность, наш MPQ максимизирует загрузку тензорных ядер при сохранении качества генерации. Результирующая система достигает редактирования в реальном времени с разрешением 1280 × 704 пикселей при 24 кадрах в секунду (end-to-end) на одном GPU RTX 5090, при этом ядро DiT работает со скоростью 58 FPS. Экспериментальные результаты показывают, что наш совместно разработанный подход значительно превосходит существующие SOTA-методы как по временной согласованности, так и по пропускной способности системы.

English

Real-time streaming video-to-video editing (V2V) is critical for interactive applications such as live broadcasting and gaming, yet it remains a formidable challenge due to the stringent requirements for temporal consistency and inference throughput. In this paper, we present SANA-Streaming, a system-algorithm co-designed framework for high-resolution, real-time streaming video editing on consumer GPUs, with the following three core designs: (1) Hybrid Diffusion Transformer architecture introduces softmax attention in part of the blocks to improve local modeling capabilities while preserving the efficiency of linear layers. (2) Cycle-Reverse Regularization is a novel training strategy that enforces semantic consistency by predicting source frames from generated content via flow matching, improving temporal consistency without requiring paired long edited videos. (3) Efficient System Co-design combines fused GDN kernels and Mixed-Precision Quantization (MPQ) optimized for the NVIDIA Blackwell (RTX 5090) architecture. By profiling real-world throughput, our MPQ maximizes Tensor Core utilization while maintaining generation quality. The resulting system achieves real-time 1280 x 704 resolution editing at 24 end-to-end FPS on a single RTX 5090 GPU, with the DiT core running at 58 FPS. Experimental results demonstrate that our co-design approach significantly outperforms existing SOTA methods in both temporal coherence and system throughput.