Atenção Radial: Atenção Esparsa O(nlog n) com Decaimento de Energia para Geração de Vídeos Longos

Resumo

Avanços recentes em modelos de difusão permitiram a geração de vídeos de alta qualidade, mas a dimensão temporal adicional aumenta significativamente os custos computacionais, tornando o treinamento e a inferência em vídeos longos proibitivamente caros. Neste artigo, identificamos um fenômeno que denominamos Decaimento de Energia Espaço-Temporal em modelos de difusão de vídeo: as pontuações de atenção pós-softmax diminuem à medida que a distância espacial e temporal entre os tokens aumenta, semelhante ao decaimento físico de sinais ou ondas no espaço e no tempo na natureza. Motivados por isso, propomos a Atenção Radial, um mecanismo de atenção esparsa escalável com complexidade O(n log n) que traduz o decaimento de energia em uma densidade de computação que decai exponencialmente, sendo significativamente mais eficiente do que a atenção densa padrão O(n^2) e mais expressiva do que a atenção linear. Especificamente, a Atenção Radial emprega uma máscara de atenção estática e simples, onde cada token atende a tokens espacialmente próximos, com o tamanho da janela de atenção diminuindo com a distância temporal. Além disso, ela permite que modelos de difusão de vídeo pré-treinados estendam seu comprimento de geração com um ajuste fino eficiente baseado em LoRA. Experimentos extensivos mostram que a Atenção Radial mantém a qualidade do vídeo em Wan2.1-14B, HunyuanVideo e Mochi 1, alcançando uma aceleração de até 1,9 vezes em relação à atenção densa original. Com ajustes mínimos, ela possibilita a geração de vídeos até 4 vezes mais longos, reduzindo os custos de treinamento em até 4,4 vezes em comparação com o ajuste fino direto e acelerando a inferência em até 3,7 vezes em relação à inferência com atenção densa.

English

Recent advances in diffusion models have enabled high-quality video generation, but the additional temporal dimension significantly increases computational costs, making training and inference on long videos prohibitively expensive. In this paper, we identify a phenomenon we term Spatiotemporal Energy Decay in video diffusion models: post-softmax attention scores diminish as spatial and temporal distance between tokens increase, akin to the physical decay of signal or waves over space and time in nature. Motivated by this, we propose Radial Attention, a scalable sparse attention mechanism with O(n log n) complexity that translates energy decay into exponentially decaying compute density, which is significantly more efficient than standard O(n^2) dense attention and more expressive than linear attention. Specifically, Radial Attention employs a simple, static attention mask where each token attends to spatially nearby tokens, with the attention window size shrinking with temporal distance. Moreover, it allows pre-trained video diffusion models to extend their generation length with efficient LoRA-based fine-tuning. Extensive experiments show that Radial Attention maintains video quality across Wan2.1-14B, HunyuanVideo, and Mochi 1, achieving up to a 1.9times speedup over the original dense attention. With minimal tuning, it enables video generation up to 4times longer while reducing training costs by up to 4.4times compared to direct fine-tuning and accelerating inference by up to 3.7times compared to dense attention inference.

Atenção Radial: Atenção Esparsa O(nlog n) com Decaimento de Energia para Geração de Vídeos Longos

Radial Attention: O(nlog n) Sparse Attention with Energy Decay for Long Video Generation

Resumo

Support