XAttention: Atención Dispersa en Bloques con Puntuación Antidiagonal

Resumen

Los modelos Transformer de contexto largo (LCTMs, por sus siglas en inglés) son fundamentales para aplicaciones del mundo real, pero sufren altos costos computacionales debido a la complejidad cuadrática de la atención. La atención dispersa por bloques mitiga este problema al enfocar el cálculo en regiones críticas, aunque los métodos existentes luchan por equilibrar precisión y eficiencia debido a las costosas mediciones de importancia de los bloques. En este artículo, presentamos XAttention, un marco plug-and-play que acelera drásticamente la inferencia de contexto largo en modelos Transformer utilizando atención dispersa. La innovación clave de XAttention es la idea de que la suma de los valores antidiagonales (es decir, desde la esquina inferior izquierda hasta la superior derecha) en la matriz de atención proporciona un poderoso indicador de la importancia de los bloques. Esto permite una identificación y poda precisa de bloques no esenciales, lo que resulta en una alta dispersión y una inferencia acelerada de manera significativa. En evaluaciones exhaustivas en puntos de referencia exigentes de contexto largo, incluyendo RULER y LongBench para lenguaje, VideoMME para comprensión de video y VBench para generación de video, XAttention logra una precisión comparable a la atención completa mientras ofrece ganancias computacionales sustanciales. Demostramos una aceleración de hasta 13.5x en el cálculo de la atención. Estos resultados subrayan la capacidad de XAttention para desbloquear el potencial práctico de la atención dispersa por bloques, allanando el camino para un despliegue escalable y eficiente de LCTMs en aplicaciones del mundo real. El código está disponible en https://github.com/mit-han-lab/x-attention.

English

Long-Context Transformer Models (LCTMs) are vital for real-world applications but suffer high computational costs due to attention's quadratic complexity. Block-sparse attention mitigates this by focusing computation on critical regions, yet existing methods struggle with balancing accuracy and efficiency due to costly block importance measurements. In this paper, we introduce XAttention, a plug-and-play framework that dramatically accelerates long-context inference in Transformers models using sparse attention. XAttention's key innovation is the insight that the sum of antidiagonal values (i.e., from the lower-left to upper-right) in the attention matrix provides a powerful proxy for block importance. This allows for precise identification and pruning of non-essential blocks, resulting in high sparsity and dramatically accelerated inference. Across comprehensive evaluations on demanding long-context benchmarks-including RULER and LongBench for language, VideoMME for video understanding, and VBench for video generation. XAttention achieves accuracy comparable to full attention while delivering substantial computational gains. We demonstrate up to 13.5x acceleration in attention computation. These results underscore XAttention's ability to unlock the practical potential of block sparse attention, paving the way for scalable and efficient deployment of LCTMs in real-world applications. Code is available at https://github.com/mit-han-lab/x-attention.

XAttention: Atención Dispersa en Bloques con Puntuación Antidiagonal

XAttention: Block Sparse Attention with Antidiagonal Scoring

Resumen

Support