ChatPaper.aiChatPaper

SparseD: Sparse Attention für Diffusionssprachmodelle

SparseD: Sparse Attention for Diffusion Language Models

September 28, 2025
papers.authors: Zeqing Wang, Gongfan Fang, Xinyin Ma, Xingyi Yang, Xinchao Wang
cs.AI

papers.abstract

Während Diffusionssprachmodelle (DLMs) eine vielversprechende Alternative zu autoregressiven Modellen (ARs) darstellen, leiden bestehende Open-Source-DLMs unter hoher Inferenzlatenz. Dieser Engpass ist hauptsächlich auf die quadratische Komplexität der Aufmerksamkeitsberechnung in Bezug auf die Kontextlänge zurückzuführen, da alle Query-Key-Paare berechnet werden müssen. Intuitiv liegt eine natürliche Strategie zur Reduzierung dieser Komplexität darin, die Aufmerksamkeit auf spärliche Muster zu beschränken, die nur die relevantesten Verbindungen beibehalten. Solche Ansätze sind in ARs etabliert, wo die Aufmerksamkeit festen und klar definierten spärlichen Mustern folgt. In DLMs beobachten wir jedoch unterschiedliche Sparsity-Verhalten: (1) Die Aufmerksamkeitsmuster variieren zwischen den Köpfen, (2) die Aufmerksamkeitsmuster in jedem Kopf bleiben über die Denoising-Schritte hinweg sehr ähnlich, und (3) frühe Denoising-Schritte sind entscheidend für die Generierung. Diese Erkenntnisse machen spärliche Aufmerksamkeitsmethoden, die für ARs entwickelt wurden, weitgehend inkompatibel mit DLMs, da sie kopf-spezifische Strukturen nicht erfassen und das Risiko bergen, die Generierung zu verschlechtern, wenn sie in frühen Denoising-Schritten angewendet werden. Um diese Herausforderungen zu bewältigen, schlagen wir SparseD vor, eine neuartige spärliche Aufmerksamkeitsmethode für DLMs. Unter Nutzung der Beobachtungen erfordert SparseD nur die einmalige Vorberechnung kopf-spezifischer spärlicher Muster, die dann über alle Schritte hinweg wiederverwendet werden. Dies verhindert die Neuberechnung spärlicher Muster in jedem Denoising-Schritt. Gleichzeitig verwendet SparseD in den frühen Schritten volle Aufmerksamkeit und wechselt später zu spärlicher Aufmerksamkeit, um die Generierungsqualität zu erhalten. Zusammen etabliert dies SparseD als eine praktische und effiziente Lösung für den Einsatz von DLMs in Anwendungen mit langem Kontext. Experimentelle Ergebnisse zeigen, dass SparseD eine verlustfreie Beschleunigung erreicht und bei einer Kontextlänge von 64k mit 1.024 Denoising-Schritten eine bis zu 1,50-fache Beschleunigung gegenüber FlashAttention liefert.
English
While diffusion language models (DLMs) offer a promising alternative to autoregressive models (ARs), existing open-source DLMs suffer from high inference latency. This bottleneck is mainly due to the attention's quadratic complexity with respect to context length in computing all query-key pairs. Intuitively, to reduce this complexity, a natural strategy is to restrict attention to sparse patterns that retain only the most relevant connections. Such approaches are well-established in ARs, where attention follows fixed and clearly defined sparse patterns. However, in DLMs, we observe distinct sparsity behaviors: (1) attention patterns vary across heads, (2) attention patterns in each head remain highly similar across denoising steps, and (3) early denoising steps are critical for generation. These findings render sparse attention methods designed for ARs largely incompatible with DLMs, as they fail to capture head-specific structures and risk degrading generation when applied in early denoising steps. To address these challenges, we propose SparseD, a novel sparse attention method for DLMs. Leveraging the observations, SparseD only requires pre-computing head-specific sparse patterns one time, and reuses them across all steps. This prevents recomputing sparse patterns at each denoising step. Meanwhile, SparseD uses full attention in the early steps, then switches to sparse attention later to maintain generation quality. Together, these establish SparseD as a practical and efficient solution for deploying DLMs in long-context applications. Experimental results demonstrate that SparseD achieves lossless acceleration, delivering up to 1.50times speedup over FlashAttention at a 64k context length with 1,024 denoising steps.
PDF242September 30, 2025