nablaNABLA: Atención a Nivel de Bloque Adaptativa por Vecindario
nablaNABLA: Neighborhood Adaptive Block-Level Attention
July 17, 2025
Autores: Dmitrii Mikhailov, Aleksey Letunovskiy, Maria Kovaleva, Vladimir Arkhipkin, Vladimir Korviakov, Vladimir Polovnikov, Viacheslav Vasilev, Evelina Sidorova, Denis Dimitrov
cs.AI
Resumen
Los recientes avances en arquitecturas basadas en transformadores han demostrado un éxito notable en tareas de generación de videos. Sin embargo, la complejidad cuadrática de los mecanismos de atención completa sigue siendo un cuello de botella crítico, especialmente para secuencias de video de alta resolución y larga duración. En este artículo, proponemos NABLA, un novedoso mecanismo de Atención Adaptativa a Nivel de Bloque basado en Vecindarios que se adapta dinámicamente a los patrones de dispersión en transformadores de difusión de video (DiTs). Al aprovechar la atención por bloques con un umbral adaptativo basado en dispersión, NABLA reduce la sobrecarga computacional mientras preserva la calidad generativa. Nuestro método no requiere un diseño personalizado de operadores de bajo nivel y puede integrarse sin problemas con el operador Flex Attention de PyTorch. Los experimentos demuestran que NABLA logra hasta 2.7 veces más rapidez en el entrenamiento y la inferencia en comparación con la línea base, casi sin comprometer las métricas cuantitativas (puntuación CLIP, puntuación VBench, puntuación de evaluación humana) ni la calidad visual. El código y los pesos del modelo están disponibles aquí: https://github.com/gen-ai-team/Wan2.1-NABLA.
English
Recent progress in transformer-based architectures has demonstrated
remarkable success in video generation tasks. However, the quadratic complexity
of full attention mechanisms remains a critical bottleneck, particularly for
high-resolution and long-duration video sequences. In this paper, we propose
NABLA, a novel Neighborhood Adaptive Block-Level Attention mechanism that
dynamically adapts to sparsity patterns in video diffusion transformers (DiTs).
By leveraging block-wise attention with adaptive sparsity-driven threshold,
NABLA reduces computational overhead while preserving generative quality. Our
method does not require custom low-level operator design and can be seamlessly
integrated with PyTorch's Flex Attention operator. Experiments demonstrate that
NABLA achieves up to 2.7x faster training and inference compared to baseline
almost without compromising quantitative metrics (CLIP score, VBench score,
human evaluation score) and visual quality drop. The code and model weights are
available here: https://github.com/gen-ai-team/Wan2.1-NABLA