SparseD: Sparse Attention für Diffusionssprachmodelle
SparseD: Sparse Attention for Diffusion Language Models
September 28, 2025
papers.authors: Zeqing Wang, Gongfan Fang, Xinyin Ma, Xingyi Yang, Xinchao Wang
cs.AI
papers.abstract
Während Diffusionssprachmodelle (DLMs) eine vielversprechende Alternative zu autoregressiven Modellen (ARs) darstellen, leiden bestehende Open-Source-DLMs unter hoher Inferenzlatenz. Dieser Engpass ist hauptsächlich auf die quadratische Komplexität der Aufmerksamkeitsberechnung in Bezug auf die Kontextlänge zurückzuführen, da alle Query-Key-Paare berechnet werden müssen. Intuitiv liegt eine natürliche Strategie zur Reduzierung dieser Komplexität darin, die Aufmerksamkeit auf spärliche Muster zu beschränken, die nur die relevantesten Verbindungen beibehalten. Solche Ansätze sind in ARs etabliert, wo die Aufmerksamkeit festen und klar definierten spärlichen Mustern folgt. In DLMs beobachten wir jedoch unterschiedliche Sparsity-Verhalten: (1) Die Aufmerksamkeitsmuster variieren zwischen den Köpfen, (2) die Aufmerksamkeitsmuster in jedem Kopf bleiben über die Denoising-Schritte hinweg sehr ähnlich, und (3) frühe Denoising-Schritte sind entscheidend für die Generierung. Diese Erkenntnisse machen spärliche Aufmerksamkeitsmethoden, die für ARs entwickelt wurden, weitgehend inkompatibel mit DLMs, da sie kopf-spezifische Strukturen nicht erfassen und das Risiko bergen, die Generierung zu verschlechtern, wenn sie in frühen Denoising-Schritten angewendet werden. Um diese Herausforderungen zu bewältigen, schlagen wir SparseD vor, eine neuartige spärliche Aufmerksamkeitsmethode für DLMs. Unter Nutzung der Beobachtungen erfordert SparseD nur die einmalige Vorberechnung kopf-spezifischer spärlicher Muster, die dann über alle Schritte hinweg wiederverwendet werden. Dies verhindert die Neuberechnung spärlicher Muster in jedem Denoising-Schritt. Gleichzeitig verwendet SparseD in den frühen Schritten volle Aufmerksamkeit und wechselt später zu spärlicher Aufmerksamkeit, um die Generierungsqualität zu erhalten. Zusammen etabliert dies SparseD als eine praktische und effiziente Lösung für den Einsatz von DLMs in Anwendungen mit langem Kontext. Experimentelle Ergebnisse zeigen, dass SparseD eine verlustfreie Beschleunigung erreicht und bei einer Kontextlänge von 64k mit 1.024 Denoising-Schritten eine bis zu 1,50-fache Beschleunigung gegenüber FlashAttention liefert.
English
While diffusion language models (DLMs) offer a promising alternative to
autoregressive models (ARs), existing open-source DLMs suffer from high
inference latency. This bottleneck is mainly due to the attention's quadratic
complexity with respect to context length in computing all query-key pairs.
Intuitively, to reduce this complexity, a natural strategy is to restrict
attention to sparse patterns that retain only the most relevant connections.
Such approaches are well-established in ARs, where attention follows fixed and
clearly defined sparse patterns. However, in DLMs, we observe distinct sparsity
behaviors: (1) attention patterns vary across heads, (2) attention patterns in
each head remain highly similar across denoising steps, and (3) early denoising
steps are critical for generation. These findings render sparse attention
methods designed for ARs largely incompatible with DLMs, as they fail to
capture head-specific structures and risk degrading generation when applied in
early denoising steps. To address these challenges, we propose SparseD, a novel
sparse attention method for DLMs. Leveraging the observations, SparseD only
requires pre-computing head-specific sparse patterns one time, and reuses them
across all steps. This prevents recomputing sparse patterns at each denoising
step. Meanwhile, SparseD uses full attention in the early steps, then switches
to sparse attention later to maintain generation quality. Together, these
establish SparseD as a practical and efficient solution for deploying DLMs in
long-context applications. Experimental results demonstrate that SparseD
achieves lossless acceleration, delivering up to 1.50times speedup over
FlashAttention at a 64k context length with 1,024 denoising steps.