SANA-Video: Geração Eficiente de Vídeos com Transformador de Difusão Linear em Blocos
SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer
September 29, 2025
Autores: Junsong Chen, Yuyang Zhao, Jincheng Yu, Ruihang Chu, Junyu Chen, Shuai Yang, Xianbang Wang, Yicheng Pan, Daquan Zhou, Huan Ling, Haozhe Liu, Hongwei Yi, Hao Zhang, Muyang Li, Yukang Chen, Han Cai, Sanja Fidler, Ping Luo, Song Han, Enze Xie
cs.AI
Resumo
Apresentamos o SANA-Video, um pequeno modelo de difusão capaz de gerar vídeos de forma eficiente com resolução de até 720x1280 e duração de minutos. O SANA-Video sintetiza vídeos de alta resolução, alta qualidade e longa duração com um forte alinhamento texto-vídeo a uma velocidade notavelmente rápida, sendo implantável em GPUs RTX 5090. Dois designs centrais garantem a geração eficiente, eficaz e de longa duração de vídeos: (1) Linear DiT: Utilizamos atenção linear como operação central, que é mais eficiente do que a atenção tradicional, considerando o grande número de tokens processados na geração de vídeos. (2) Cache KV de Memória Constante para Atenção Linear em Blocos: projetamos uma abordagem autoregressiva em blocos para a geração de vídeos longos, empregando um estado de memória constante, derivado das propriedades cumulativas da atenção linear. Esse cache KV fornece ao Linear DiT um contexto global com um custo de memória fixo, eliminando a necessidade de um cache KV tradicional e permitindo a geração eficiente de vídeos com duração de minutos. Além disso, exploramos filtros de dados eficazes e estratégias de treinamento de modelos, reduzindo o custo de treinamento para 12 dias em 64 GPUs H100, o que representa apenas 1% do custo do MovieGen. Dado seu baixo custo, o SANA-Video alcança um desempenho competitivo em comparação com modelos modernos de difusão de pequeno porte (por exemplo, Wan 2.1-1.3B e SkyReel-V2-1.3B), sendo 16x mais rápido em latência medida. Além disso, o SANA-Video pode ser implantado em GPUs RTX 5090 com precisão NVFP4, acelerando a velocidade de inferência para gerar um vídeo de 5 segundos em 720p de 71s para 29s (aceleração de 2,4x). Em resumo, o SANA-Video possibilita a geração de vídeos de alta qualidade com baixo custo.
English
We introduce SANA-Video, a small diffusion model that can efficiently
generate videos up to 720x1280 resolution and minute-length duration.
SANA-Video synthesizes high-resolution, high-quality and long videos with
strong text-video alignment at a remarkably fast speed, deployable on RTX 5090
GPU. Two core designs ensure our efficient, effective and long video
generation: (1) Linear DiT: We leverage linear attention as the core operation,
which is more efficient than vanilla attention given the large number of tokens
processed in video generation. (2) Constant-Memory KV cache for Block Linear
Attention: we design block-wise autoregressive approach for long video
generation by employing a constant-memory state, derived from the cumulative
properties of linear attention. This KV cache provides the Linear DiT with
global context at a fixed memory cost, eliminating the need for a traditional
KV cache and enabling efficient, minute-long video generation. In addition, we
explore effective data filters and model training strategies, narrowing the
training cost to 12 days on 64 H100 GPUs, which is only 1% of the cost of
MovieGen. Given its low cost, SANA-Video achieves competitive performance
compared to modern state-of-the-art small diffusion models (e.g., Wan 2.1-1.3B
and SkyReel-V2-1.3B) while being 16x faster in measured latency. Moreover,
SANA-Video can be deployed on RTX 5090 GPUs with NVFP4 precision, accelerating
the inference speed of generating a 5-second 720p video from 71s to 29s (2.4x
speedup). In summary, SANA-Video enables low-cost, high-quality video
generation.