SANA-Video: Эффективная генерация видео с использованием блочного линейного диффузионного трансформера
SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer
September 29, 2025
Авторы: Junsong Chen, Yuyang Zhao, Jincheng Yu, Ruihang Chu, Junyu Chen, Shuai Yang, Xianbang Wang, Yicheng Pan, Daquan Zhou, Huan Ling, Haozhe Liu, Hongwei Yi, Hao Zhang, Muyang Li, Yukang Chen, Han Cai, Sanja Fidler, Ping Luo, Song Han, Enze Xie
cs.AI
Аннотация
Мы представляем SANA-Video — компактную диффузионную модель, способную эффективно генерировать видео с разрешением до 720x1280 и длительностью до минуты. SANA-Video синтезирует высококачественные видео с высоким разрешением и длительной продолжительностью, обеспечивая точное соответствие текста и видео при высокой скорости работы, что позволяет развернуть модель на GPU RTX 5090. Две ключевые разработки обеспечивают эффективное и долгое генерирование видео: (1) Linear DiT: Мы используем линейное внимание в качестве основной операции, что более эффективно по сравнению с классическим вниманием, учитывая большое количество токенов, обрабатываемых при генерации видео. (2) Кэш KV с постоянной памятью для блочного линейного внимания: мы разработали блочный авторегрессивный подход для генерации длинных видео, используя состояние с постоянной памятью, основанное на кумулятивных свойствах линейного внимания. Этот кэш KV предоставляет Linear DiT глобальный контекст при фиксированных затратах памяти, устраняя необходимость в традиционном кэше KV и обеспечивая эффективную генерацию видео длительностью до минуты. Кроме того, мы исследуем эффективные фильтры данных и стратегии обучения модели, сокращая затраты на обучение до 12 дней на 64 GPU H100, что составляет всего 1% от стоимости MovieGen. Благодаря низким затратам, SANA-Video демонстрирует конкурентоспособную производительность по сравнению с современными компактными диффузионными моделями (например, Wan 2.1-1.3B и SkyReel-V2-1.3B), при этом работая в 16 раз быстрее по измеренной задержке. Более того, SANA-Video может быть развернута на GPU RTX 5090 с точностью NVFP4, ускоряя время генерации 5-секундного видео в разрешении 720p с 71 секунды до 29 секунд (ускорение в 2,4 раза). В итоге, SANA-Video позволяет генерировать высококачественные видео с низкими затратами.
English
We introduce SANA-Video, a small diffusion model that can efficiently
generate videos up to 720x1280 resolution and minute-length duration.
SANA-Video synthesizes high-resolution, high-quality and long videos with
strong text-video alignment at a remarkably fast speed, deployable on RTX 5090
GPU. Two core designs ensure our efficient, effective and long video
generation: (1) Linear DiT: We leverage linear attention as the core operation,
which is more efficient than vanilla attention given the large number of tokens
processed in video generation. (2) Constant-Memory KV cache for Block Linear
Attention: we design block-wise autoregressive approach for long video
generation by employing a constant-memory state, derived from the cumulative
properties of linear attention. This KV cache provides the Linear DiT with
global context at a fixed memory cost, eliminating the need for a traditional
KV cache and enabling efficient, minute-long video generation. In addition, we
explore effective data filters and model training strategies, narrowing the
training cost to 12 days on 64 H100 GPUs, which is only 1% of the cost of
MovieGen. Given its low cost, SANA-Video achieves competitive performance
compared to modern state-of-the-art small diffusion models (e.g., Wan 2.1-1.3B
and SkyReel-V2-1.3B) while being 16x faster in measured latency. Moreover,
SANA-Video can be deployed on RTX 5090 GPUs with NVFP4 precision, accelerating
the inference speed of generating a 5-second 720p video from 71s to 29s (2.4x
speedup). In summary, SANA-Video enables low-cost, high-quality video
generation.