nablaNABLA : Attention Adaptative au Voisinage au Niveau des Blocs
nablaNABLA: Neighborhood Adaptive Block-Level Attention
July 17, 2025
papers.authors: Dmitrii Mikhailov, Aleksey Letunovskiy, Maria Kovaleva, Vladimir Arkhipkin, Vladimir Korviakov, Vladimir Polovnikov, Viacheslav Vasilev, Evelina Sidorova, Denis Dimitrov
cs.AI
papers.abstract
Les récents progrès des architectures basées sur les transformateurs ont démontré un succès remarquable dans les tâches de génération vidéo. Cependant, la complexité quadratique des mécanismes d'attention complète reste un goulot d'étranglement critique, en particulier pour les séquences vidéo de haute résolution et de longue durée. Dans cet article, nous proposons NABLA, un nouveau mécanisme d'attention adaptative par blocs au niveau du voisinage qui s'adapte dynamiquement aux motifs de sparsité dans les transformateurs de diffusion vidéo (DiTs). En exploitant une attention par blocs avec un seuil adaptatif basé sur la sparsité, NABLA réduit la surcharge computationnelle tout en préservant la qualité générative. Notre méthode ne nécessite pas de conception personnalisée d'opérateurs de bas niveau et peut être intégrée de manière transparente avec l'opérateur Flex Attention de PyTorch. Les expériences démontrent que NABLA permet d'atteindre jusqu'à 2,7 fois plus de rapidité en entraînement et en inférence par rapport aux méthodes de référence, presque sans compromettre les métriques quantitatives (score CLIP, score VBench, score d'évaluation humaine) ni la qualité visuelle. Le code et les poids des modèles sont disponibles ici : https://github.com/gen-ai-team/Wan2.1-NABLA
English
Recent progress in transformer-based architectures has demonstrated
remarkable success in video generation tasks. However, the quadratic complexity
of full attention mechanisms remains a critical bottleneck, particularly for
high-resolution and long-duration video sequences. In this paper, we propose
NABLA, a novel Neighborhood Adaptive Block-Level Attention mechanism that
dynamically adapts to sparsity patterns in video diffusion transformers (DiTs).
By leveraging block-wise attention with adaptive sparsity-driven threshold,
NABLA reduces computational overhead while preserving generative quality. Our
method does not require custom low-level operator design and can be seamlessly
integrated with PyTorch's Flex Attention operator. Experiments demonstrate that
NABLA achieves up to 2.7x faster training and inference compared to baseline
almost without compromising quantitative metrics (CLIP score, VBench score,
human evaluation score) and visual quality drop. The code and model weights are
available here: https://github.com/gen-ai-team/Wan2.1-NABLA