nablaNABLA: Attenzione a Livello di Blocco Adattiva al Vicinato
nablaNABLA: Neighborhood Adaptive Block-Level Attention
July 17, 2025
Autori: Dmitrii Mikhailov, Aleksey Letunovskiy, Maria Kovaleva, Vladimir Arkhipkin, Vladimir Korviakov, Vladimir Polovnikov, Viacheslav Vasilev, Evelina Sidorova, Denis Dimitrov
cs.AI
Abstract
I recenti progressi nelle architetture basate su transformer hanno dimostrato un successo notevole nei compiti di generazione video. Tuttavia, la complessità quadratica dei meccanismi di attenzione completa rimane un collo di bottiglia critico, specialmente per sequenze video ad alta risoluzione e di lunga durata. In questo articolo, proponiamo NABLA, un nuovo meccanismo di attenzione a livello di blocco adattivo al vicinato che si adatta dinamicamente ai modelli di sparsità nei transformer di diffusione video (DiTs). Sfruttando l'attenzione a blocchi con una soglia adattiva guidata dalla sparsità, NABLA riduce il sovraccarico computazionale preservando la qualità generativa. Il nostro metodo non richiede la progettazione di operatori di basso livello personalizzati e può essere integrato senza soluzione di continuità con l'operatore Flex Attention di PyTorch. Gli esperimenti dimostrano che NABLA raggiunge un addestramento e un'inferenza fino a 2,7 volte più veloci rispetto alla linea di base, quasi senza compromettere le metriche quantitative (punteggio CLIP, punteggio VBench, punteggio di valutazione umana) e il calo della qualità visiva. Il codice e i pesi del modello sono disponibili qui: https://github.com/gen-ai-team/Wan2.1-NABLA
English
Recent progress in transformer-based architectures has demonstrated
remarkable success in video generation tasks. However, the quadratic complexity
of full attention mechanisms remains a critical bottleneck, particularly for
high-resolution and long-duration video sequences. In this paper, we propose
NABLA, a novel Neighborhood Adaptive Block-Level Attention mechanism that
dynamically adapts to sparsity patterns in video diffusion transformers (DiTs).
By leveraging block-wise attention with adaptive sparsity-driven threshold,
NABLA reduces computational overhead while preserving generative quality. Our
method does not require custom low-level operator design and can be seamlessly
integrated with PyTorch's Flex Attention operator. Experiments demonstrate that
NABLA achieves up to 2.7x faster training and inference compared to baseline
almost without compromising quantitative metrics (CLIP score, VBench score,
human evaluation score) and visual quality drop. The code and model weights are
available here: https://github.com/gen-ai-team/Wan2.1-NABLA