Attention Radiale : Attention Sparse en O(nlog n) avec Décroissance d'Énergie pour la Génération de Longues Vidéos
Radial Attention: O(nlog n) Sparse Attention with Energy Decay for Long Video Generation
June 24, 2025
Auteurs: Xingyang Li, Muyang Li, Tianle Cai, Haocheng Xi, Shuo Yang, Yujun Lin, Lvmin Zhang, Songlin Yang, Jinbo Hu, Kelly Peng, Maneesh Agrawala, Ion Stoica, Kurt Keutzer, Song Han
cs.AI
Résumé
Les récents progrès des modèles de diffusion ont permis la génération de vidéos de haute qualité, mais la dimension temporelle supplémentaire augmente considérablement les coûts de calcul, rendant l'entraînement et l'inférence sur de longues vidéos prohibitivement coûteux. Dans cet article, nous identifions un phénomène que nous appelons la Décroissance d'Énergie Spatiotemporelle dans les modèles de diffusion vidéo : les scores d'attention post-softmax diminuent à mesure que la distance spatiale et temporelle entre les tokens augmente, similaire à la décroissance physique d'un signal ou d'ondes dans l'espace et le temps dans la nature. Motivés par cela, nous proposons l'Attention Radiale, un mécanisme d'attention parcimonieuse scalable avec une complexité O(n log n) qui traduit la décroissance d'énergie en une densité de calcul décroissante de manière exponentielle, ce qui est significativement plus efficace que l'attention dense standard O(n^2) et plus expressif que l'attention linéaire. Plus précisément, l'Attention Radiale utilise un masque d'attention simple et statique où chaque token s'intéresse aux tokens spatialement proches, avec la taille de la fenêtre d'attention rétrécissant avec la distance temporelle. De plus, elle permet aux modèles de diffusion vidéo pré-entraînés d'étendre leur longueur de génération avec un ajustement fin efficace basé sur LoRA. Des expériences approfondies montrent que l'Attention Radiale maintient la qualité vidéo sur Wan2.1-14B, HunyuanVideo et Mochi 1, atteignant jusqu'à une accélération de 1,9 fois par rapport à l'attention dense originale. Avec un réglage minimal, elle permet la génération de vidéos jusqu'à 4 fois plus longues tout en réduisant les coûts d'entraînement jusqu'à 4,4 fois par rapport à un ajustement fin direct et en accélérant l'inférence jusqu'à 3,7 fois par rapport à l'inférence par attention dense.
English
Recent advances in diffusion models have enabled high-quality video
generation, but the additional temporal dimension significantly increases
computational costs, making training and inference on long videos prohibitively
expensive. In this paper, we identify a phenomenon we term Spatiotemporal
Energy Decay in video diffusion models: post-softmax attention scores diminish
as spatial and temporal distance between tokens increase, akin to the physical
decay of signal or waves over space and time in nature. Motivated by this, we
propose Radial Attention, a scalable sparse attention mechanism with O(n log
n) complexity that translates energy decay into exponentially decaying compute
density, which is significantly more efficient than standard O(n^2) dense
attention and more expressive than linear attention. Specifically, Radial
Attention employs a simple, static attention mask where each token attends to
spatially nearby tokens, with the attention window size shrinking with temporal
distance. Moreover, it allows pre-trained video diffusion models to extend
their generation length with efficient LoRA-based fine-tuning. Extensive
experiments show that Radial Attention maintains video quality across
Wan2.1-14B, HunyuanVideo, and Mochi 1, achieving up to a 1.9times speedup
over the original dense attention. With minimal tuning, it enables video
generation up to 4times longer while reducing training costs by up to
4.4times compared to direct fine-tuning and accelerating inference by up to
3.7times compared to dense attention inference.