Attention Radiale : Attention Sparse en O(nlog n) avec Décroissance d'Énergie pour la Génération de Longues Vidéos

Résumé

Les récents progrès des modèles de diffusion ont permis la génération de vidéos de haute qualité, mais la dimension temporelle supplémentaire augmente considérablement les coûts de calcul, rendant l'entraînement et l'inférence sur de longues vidéos prohibitivement coûteux. Dans cet article, nous identifions un phénomène que nous appelons la Décroissance d'Énergie Spatiotemporelle dans les modèles de diffusion vidéo : les scores d'attention post-softmax diminuent à mesure que la distance spatiale et temporelle entre les tokens augmente, similaire à la décroissance physique d'un signal ou d'ondes dans l'espace et le temps dans la nature. Motivés par cela, nous proposons l'Attention Radiale, un mécanisme d'attention parcimonieuse scalable avec une complexité O(n log n) qui traduit la décroissance d'énergie en une densité de calcul décroissante de manière exponentielle, ce qui est significativement plus efficace que l'attention dense standard O(n^2) et plus expressif que l'attention linéaire. Plus précisément, l'Attention Radiale utilise un masque d'attention simple et statique où chaque token s'intéresse aux tokens spatialement proches, avec la taille de la fenêtre d'attention rétrécissant avec la distance temporelle. De plus, elle permet aux modèles de diffusion vidéo pré-entraînés d'étendre leur longueur de génération avec un ajustement fin efficace basé sur LoRA. Des expériences approfondies montrent que l'Attention Radiale maintient la qualité vidéo sur Wan2.1-14B, HunyuanVideo et Mochi 1, atteignant jusqu'à une accélération de 1,9 fois par rapport à l'attention dense originale. Avec un réglage minimal, elle permet la génération de vidéos jusqu'à 4 fois plus longues tout en réduisant les coûts d'entraînement jusqu'à 4,4 fois par rapport à un ajustement fin direct et en accélérant l'inférence jusqu'à 3,7 fois par rapport à l'inférence par attention dense.

English

Recent advances in diffusion models have enabled high-quality video generation, but the additional temporal dimension significantly increases computational costs, making training and inference on long videos prohibitively expensive. In this paper, we identify a phenomenon we term Spatiotemporal Energy Decay in video diffusion models: post-softmax attention scores diminish as spatial and temporal distance between tokens increase, akin to the physical decay of signal or waves over space and time in nature. Motivated by this, we propose Radial Attention, a scalable sparse attention mechanism with O(n log n) complexity that translates energy decay into exponentially decaying compute density, which is significantly more efficient than standard O(n^2) dense attention and more expressive than linear attention. Specifically, Radial Attention employs a simple, static attention mask where each token attends to spatially nearby tokens, with the attention window size shrinking with temporal distance. Moreover, it allows pre-trained video diffusion models to extend their generation length with efficient LoRA-based fine-tuning. Extensive experiments show that Radial Attention maintains video quality across Wan2.1-14B, HunyuanVideo, and Mochi 1, achieving up to a 1.9times speedup over the original dense attention. With minimal tuning, it enables video generation up to 4times longer while reducing training costs by up to 4.4times compared to direct fine-tuning and accelerating inference by up to 3.7times compared to dense attention inference.

Attention Radiale : Attention Sparse en O(nlog n) avec Décroissance d'Énergie pour la Génération de Longues Vidéos

Radial Attention: O(nlog n) Sparse Attention with Energy Decay for Long Video Generation

Résumé

Support