Atención Radial: Atención Dispersa O(nlog n) con Decaimiento de Energía para la Generación de Videos Largos
Radial Attention: O(nlog n) Sparse Attention with Energy Decay for Long Video Generation
June 24, 2025
Autores: Xingyang Li, Muyang Li, Tianle Cai, Haocheng Xi, Shuo Yang, Yujun Lin, Lvmin Zhang, Songlin Yang, Jinbo Hu, Kelly Peng, Maneesh Agrawala, Ion Stoica, Kurt Keutzer, Song Han
cs.AI
Resumen
Los recientes avances en los modelos de difusión han permitido la generación de videos de alta calidad, pero la dimensión temporal adicional aumenta significativamente los costos computacionales, haciendo que el entrenamiento y la inferencia en videos largos sean prohibitivamente costosos. En este artículo, identificamos un fenómeno que denominamos Decaimiento de Energía Espaciotemporal en los modelos de difusión de video: las puntuaciones de atención post-softmax disminuyen a medida que aumenta la distancia espacial y temporal entre los tokens, similar al decaimiento físico de señales u ondas en el espacio y el tiempo en la naturaleza. Motivados por esto, proponemos Atención Radial, un mecanismo de atención dispersa escalable con complejidad O(n log n) que traduce el decaimiento de energía en una densidad de cómputo que decae exponencialmente, lo que es significativamente más eficiente que la atención densa estándar O(n^2) y más expresivo que la atención lineal. Específicamente, la Atención Radial emplea una máscara de atención estática y simple donde cada token atiende a tokens espacialmente cercanos, con el tamaño de la ventana de atención reduciéndose con la distancia temporal. Además, permite que los modelos de difusión de video preentrenados extiendan su longitud de generación con un ajuste fino eficiente basado en LoRA. Experimentos extensos muestran que la Atención Radial mantiene la calidad del video en Wan2.1-14B, HunyuanVideo y Mochi 1, logrando una aceleración de hasta 1.9 veces sobre la atención densa original. Con un ajuste mínimo, permite la generación de videos hasta 4 veces más largos mientras reduce los costos de entrenamiento hasta 4.4 veces en comparación con el ajuste fino directo y acelera la inferencia hasta 3.7 veces en comparación con la inferencia de atención densa.
English
Recent advances in diffusion models have enabled high-quality video
generation, but the additional temporal dimension significantly increases
computational costs, making training and inference on long videos prohibitively
expensive. In this paper, we identify a phenomenon we term Spatiotemporal
Energy Decay in video diffusion models: post-softmax attention scores diminish
as spatial and temporal distance between tokens increase, akin to the physical
decay of signal or waves over space and time in nature. Motivated by this, we
propose Radial Attention, a scalable sparse attention mechanism with O(n log
n) complexity that translates energy decay into exponentially decaying compute
density, which is significantly more efficient than standard O(n^2) dense
attention and more expressive than linear attention. Specifically, Radial
Attention employs a simple, static attention mask where each token attends to
spatially nearby tokens, with the attention window size shrinking with temporal
distance. Moreover, it allows pre-trained video diffusion models to extend
their generation length with efficient LoRA-based fine-tuning. Extensive
experiments show that Radial Attention maintains video quality across
Wan2.1-14B, HunyuanVideo, and Mochi 1, achieving up to a 1.9times speedup
over the original dense attention. With minimal tuning, it enables video
generation up to 4times longer while reducing training costs by up to
4.4times compared to direct fine-tuning and accelerating inference by up to
3.7times compared to dense attention inference.