ChatPaper.aiChatPaper

Atención Radial: Atención Dispersa O(nlog n) con Decaimiento de Energía para la Generación de Videos Largos

Radial Attention: O(nlog n) Sparse Attention with Energy Decay for Long Video Generation

June 24, 2025
Autores: Xingyang Li, Muyang Li, Tianle Cai, Haocheng Xi, Shuo Yang, Yujun Lin, Lvmin Zhang, Songlin Yang, Jinbo Hu, Kelly Peng, Maneesh Agrawala, Ion Stoica, Kurt Keutzer, Song Han
cs.AI

Resumen

Los recientes avances en los modelos de difusión han permitido la generación de videos de alta calidad, pero la dimensión temporal adicional aumenta significativamente los costos computacionales, haciendo que el entrenamiento y la inferencia en videos largos sean prohibitivamente costosos. En este artículo, identificamos un fenómeno que denominamos Decaimiento de Energía Espaciotemporal en los modelos de difusión de video: las puntuaciones de atención post-softmax disminuyen a medida que aumenta la distancia espacial y temporal entre los tokens, similar al decaimiento físico de señales u ondas en el espacio y el tiempo en la naturaleza. Motivados por esto, proponemos Atención Radial, un mecanismo de atención dispersa escalable con complejidad O(n log n) que traduce el decaimiento de energía en una densidad de cómputo que decae exponencialmente, lo que es significativamente más eficiente que la atención densa estándar O(n^2) y más expresivo que la atención lineal. Específicamente, la Atención Radial emplea una máscara de atención estática y simple donde cada token atiende a tokens espacialmente cercanos, con el tamaño de la ventana de atención reduciéndose con la distancia temporal. Además, permite que los modelos de difusión de video preentrenados extiendan su longitud de generación con un ajuste fino eficiente basado en LoRA. Experimentos extensos muestran que la Atención Radial mantiene la calidad del video en Wan2.1-14B, HunyuanVideo y Mochi 1, logrando una aceleración de hasta 1.9 veces sobre la atención densa original. Con un ajuste mínimo, permite la generación de videos hasta 4 veces más largos mientras reduce los costos de entrenamiento hasta 4.4 veces en comparación con el ajuste fino directo y acelera la inferencia hasta 3.7 veces en comparación con la inferencia de atención densa.
English
Recent advances in diffusion models have enabled high-quality video generation, but the additional temporal dimension significantly increases computational costs, making training and inference on long videos prohibitively expensive. In this paper, we identify a phenomenon we term Spatiotemporal Energy Decay in video diffusion models: post-softmax attention scores diminish as spatial and temporal distance between tokens increase, akin to the physical decay of signal or waves over space and time in nature. Motivated by this, we propose Radial Attention, a scalable sparse attention mechanism with O(n log n) complexity that translates energy decay into exponentially decaying compute density, which is significantly more efficient than standard O(n^2) dense attention and more expressive than linear attention. Specifically, Radial Attention employs a simple, static attention mask where each token attends to spatially nearby tokens, with the attention window size shrinking with temporal distance. Moreover, it allows pre-trained video diffusion models to extend their generation length with efficient LoRA-based fine-tuning. Extensive experiments show that Radial Attention maintains video quality across Wan2.1-14B, HunyuanVideo, and Mochi 1, achieving up to a 1.9times speedup over the original dense attention. With minimal tuning, it enables video generation up to 4times longer while reducing training costs by up to 4.4times compared to direct fine-tuning and accelerating inference by up to 3.7times compared to dense attention inference.
PDF303July 2, 2025