Atenção Radial: Atenção Esparsa O(nlog n) com Decaimento de Energia para Geração de Vídeos Longos
Radial Attention: O(nlog n) Sparse Attention with Energy Decay for Long Video Generation
June 24, 2025
Autores: Xingyang Li, Muyang Li, Tianle Cai, Haocheng Xi, Shuo Yang, Yujun Lin, Lvmin Zhang, Songlin Yang, Jinbo Hu, Kelly Peng, Maneesh Agrawala, Ion Stoica, Kurt Keutzer, Song Han
cs.AI
Resumo
Avanços recentes em modelos de difusão permitiram a geração de vídeos de alta qualidade, mas a dimensão temporal adicional aumenta significativamente os custos computacionais, tornando o treinamento e a inferência em vídeos longos proibitivamente caros. Neste artigo, identificamos um fenômeno que denominamos Decaimento de Energia Espaço-Temporal em modelos de difusão de vídeo: as pontuações de atenção pós-softmax diminuem à medida que a distância espacial e temporal entre os tokens aumenta, semelhante ao decaimento físico de sinais ou ondas no espaço e no tempo na natureza. Motivados por isso, propomos a Atenção Radial, um mecanismo de atenção esparsa escalável com complexidade O(n log n) que traduz o decaimento de energia em uma densidade de computação que decai exponencialmente, sendo significativamente mais eficiente do que a atenção densa padrão O(n^2) e mais expressiva do que a atenção linear. Especificamente, a Atenção Radial emprega uma máscara de atenção estática e simples, onde cada token atende a tokens espacialmente próximos, com o tamanho da janela de atenção diminuindo com a distância temporal. Além disso, ela permite que modelos de difusão de vídeo pré-treinados estendam seu comprimento de geração com um ajuste fino eficiente baseado em LoRA. Experimentos extensivos mostram que a Atenção Radial mantém a qualidade do vídeo em Wan2.1-14B, HunyuanVideo e Mochi 1, alcançando uma aceleração de até 1,9 vezes em relação à atenção densa original. Com ajustes mínimos, ela possibilita a geração de vídeos até 4 vezes mais longos, reduzindo os custos de treinamento em até 4,4 vezes em comparação com o ajuste fino direto e acelerando a inferência em até 3,7 vezes em relação à inferência com atenção densa.
English
Recent advances in diffusion models have enabled high-quality video
generation, but the additional temporal dimension significantly increases
computational costs, making training and inference on long videos prohibitively
expensive. In this paper, we identify a phenomenon we term Spatiotemporal
Energy Decay in video diffusion models: post-softmax attention scores diminish
as spatial and temporal distance between tokens increase, akin to the physical
decay of signal or waves over space and time in nature. Motivated by this, we
propose Radial Attention, a scalable sparse attention mechanism with O(n log
n) complexity that translates energy decay into exponentially decaying compute
density, which is significantly more efficient than standard O(n^2) dense
attention and more expressive than linear attention. Specifically, Radial
Attention employs a simple, static attention mask where each token attends to
spatially nearby tokens, with the attention window size shrinking with temporal
distance. Moreover, it allows pre-trained video diffusion models to extend
their generation length with efficient LoRA-based fine-tuning. Extensive
experiments show that Radial Attention maintains video quality across
Wan2.1-14B, HunyuanVideo, and Mochi 1, achieving up to a 1.9times speedup
over the original dense attention. With minimal tuning, it enables video
generation up to 4times longer while reducing training costs by up to
4.4times compared to direct fine-tuning and accelerating inference by up to
3.7times compared to dense attention inference.