nablaNABLA: Адаптивное блочное внимание на уровне соседства
nablaNABLA: Neighborhood Adaptive Block-Level Attention
July 17, 2025
Авторы: Dmitrii Mikhailov, Aleksey Letunovskiy, Maria Kovaleva, Vladimir Arkhipkin, Vladimir Korviakov, Vladimir Polovnikov, Viacheslav Vasilev, Evelina Sidorova, Denis Dimitrov
cs.AI
Аннотация
Недавние достижения в архитектурах на основе трансформеров продемонстрировали впечатляющие успехи в задачах генерации видео. Однако квадратичная сложность механизмов полного внимания остается критическим узким местом, особенно для видео с высоким разрешением и большой продолжительностью. В данной статье мы представляем NABLA — новый механизм Neighborhood Adaptive Block-Level Attention (Адаптивное блочное внимание на уровне соседства), который динамически адаптируется к паттернам разреженности в трансформерах диффузии видео (DiTs). Используя блочное внимание с адаптивным порогом, определяемым разреженностью, NABLA снижает вычислительные затраты, сохраняя при этом качество генерации. Наш метод не требует разработки специализированных низкоуровневых операторов и может быть легко интегрирован с оператором Flex Attention в PyTorch. Эксперименты показывают, что NABLA обеспечивает ускорение обучения и вывода до 2,7 раз по сравнению с базовыми методами практически без ухудшения количественных метрик (CLIP score, VBench score, оценка человеком) и визуального качества. Код и веса модели доступны по ссылке: https://github.com/gen-ai-team/Wan2.1-NABLA.
English
Recent progress in transformer-based architectures has demonstrated
remarkable success in video generation tasks. However, the quadratic complexity
of full attention mechanisms remains a critical bottleneck, particularly for
high-resolution and long-duration video sequences. In this paper, we propose
NABLA, a novel Neighborhood Adaptive Block-Level Attention mechanism that
dynamically adapts to sparsity patterns in video diffusion transformers (DiTs).
By leveraging block-wise attention with adaptive sparsity-driven threshold,
NABLA reduces computational overhead while preserving generative quality. Our
method does not require custom low-level operator design and can be seamlessly
integrated with PyTorch's Flex Attention operator. Experiments demonstrate that
NABLA achieves up to 2.7x faster training and inference compared to baseline
almost without compromising quantitative metrics (CLIP score, VBench score,
human evaluation score) and visual quality drop. The code and model weights are
available here: https://github.com/gen-ai-team/Wan2.1-NABLA