SparseD : Attention parcimonieuse pour les modèles de langage à diffusion
SparseD: Sparse Attention for Diffusion Language Models
September 28, 2025
papers.authors: Zeqing Wang, Gongfan Fang, Xinyin Ma, Xingyi Yang, Xinchao Wang
cs.AI
papers.abstract
Bien que les modèles de langage par diffusion (DLMs) offrent une alternative prometteuse aux modèles autorégressifs (ARs), les DLMs open-source existants souffrent d'une latence d'inférence élevée. Ce goulot d'étranglement est principalement dû à la complexité quadratique de l'attention par rapport à la longueur du contexte lors du calcul de toutes les paires requête-clé. Intuitivement, pour réduire cette complexité, une stratégie naturelle consiste à restreindre l'attention à des motifs clairsemés qui ne conservent que les connexions les plus pertinentes. De telles approches sont bien établies dans les ARs, où l'attention suit des motifs clairsemés fixes et clairement définis. Cependant, dans les DLMs, nous observons des comportements de sparsité distincts : (1) les motifs d'attention varient selon les têtes, (2) les motifs d'attention dans chaque tête restent très similaires à travers les étapes de débruitage, et (3) les premières étapes de débruitage sont cruciales pour la génération. Ces constatations rendent les méthodes d'attention clairsemée conçues pour les ARs largement incompatibles avec les DLMs, car elles ne parviennent pas à capturer les structures spécifiques aux têtes et risquent de dégrader la génération lorsqu'elles sont appliquées lors des premières étapes de débruitage. Pour relever ces défis, nous proposons SparseD, une nouvelle méthode d'attention clairsemée pour les DLMs. En tirant parti de ces observations, SparseD ne nécessite de pré-calculer les motifs clairsemés spécifiques aux têtes qu'une seule fois, et les réutilise à travers toutes les étapes. Cela évite de recalculer les motifs clairsemés à chaque étape de débruitage. Parallèlement, SparseD utilise une attention complète dans les premières étapes, puis passe à une attention clairsemée plus tard pour maintenir la qualité de la génération. Ensemble, ces éléments établissent SparseD comme une solution pratique et efficace pour déployer les DLMs dans des applications à contexte long. Les résultats expérimentaux démontrent que SparseD permet une accélération sans perte, offrant jusqu'à 1,50 fois d'accélération par rapport à FlashAttention pour une longueur de contexte de 64k avec 1 024 étapes de débruitage.
English
While diffusion language models (DLMs) offer a promising alternative to
autoregressive models (ARs), existing open-source DLMs suffer from high
inference latency. This bottleneck is mainly due to the attention's quadratic
complexity with respect to context length in computing all query-key pairs.
Intuitively, to reduce this complexity, a natural strategy is to restrict
attention to sparse patterns that retain only the most relevant connections.
Such approaches are well-established in ARs, where attention follows fixed and
clearly defined sparse patterns. However, in DLMs, we observe distinct sparsity
behaviors: (1) attention patterns vary across heads, (2) attention patterns in
each head remain highly similar across denoising steps, and (3) early denoising
steps are critical for generation. These findings render sparse attention
methods designed for ARs largely incompatible with DLMs, as they fail to
capture head-specific structures and risk degrading generation when applied in
early denoising steps. To address these challenges, we propose SparseD, a novel
sparse attention method for DLMs. Leveraging the observations, SparseD only
requires pre-computing head-specific sparse patterns one time, and reuses them
across all steps. This prevents recomputing sparse patterns at each denoising
step. Meanwhile, SparseD uses full attention in the early steps, then switches
to sparse attention later to maintain generation quality. Together, these
establish SparseD as a practical and efficient solution for deploying DLMs in
long-context applications. Experimental results demonstrate that SparseD
achieves lossless acceleration, delivering up to 1.50times speedup over
FlashAttention at a 64k context length with 1,024 denoising steps.