SparseD: Attenzione Sparsa per Modelli Linguistici di Diffusione

Abstract

Sebbene i modelli linguistici basati su diffusione (DLMs) rappresentino un'alternativa promettente ai modelli autoregressivi (ARs), gli attuali DLMs open-source soffrono di un'elevata latenza di inferenza. Questo collo di bottiglia è principalmente dovuto alla complessità quadratica dell'attenzione rispetto alla lunghezza del contesto nel calcolo di tutte le coppie query-key. Intuitivamente, per ridurre questa complessità, una strategia naturale è limitare l'attenzione a pattern sparsi che mantengono solo le connessioni più rilevanti. Tali approcci sono ben consolidati negli ARs, dove l'attenzione segue pattern sparsi fissi e chiaramente definiti. Tuttavia, nei DLMs osserviamo comportamenti di sparsità distinti: (1) i pattern di attenzione variano tra le diverse teste, (2) i pattern di attenzione in ciascuna testa rimangono altamente simili tra i passi di denoising, e (3) i primi passi di denoising sono critici per la generazione. Questi risultati rendono i metodi di attenzione sparsa progettati per gli ARs largamente incompatibili con i DLMs, poiché non riescono a catturare strutture specifiche per ciascuna testa e rischiano di degradare la generazione se applicati nei primi passi di denoising. Per affrontare queste sfide, proponiamo SparseD, un nuovo metodo di attenzione sparsa per DLMs. Sfruttando le osservazioni, SparseD richiede solo il pre-calcolo dei pattern sparsi specifici per ciascuna testa una volta, riutilizzandoli in tutti i passi. Ciò evita di ricalcolare i pattern sparsi a ogni passo di denoising. Nel frattempo, SparseD utilizza l'attenzione completa nei primi passi, per poi passare all'attenzione sparsa in seguito per mantenere la qualità della generazione. Insieme, questi aspetti rendono SparseD una soluzione pratica ed efficiente per l'implementazione di DLMs in applicazioni con contesti lunghi. I risultati sperimentali dimostrano che SparseD raggiunge un'accelerazione senza perdite, ottenendo un incremento di velocità fino a 1,50 volte rispetto a FlashAttention con una lunghezza del contesto di 64k e 1.024 passi di denoising.

English

While diffusion language models (DLMs) offer a promising alternative to autoregressive models (ARs), existing open-source DLMs suffer from high inference latency. This bottleneck is mainly due to the attention's quadratic complexity with respect to context length in computing all query-key pairs. Intuitively, to reduce this complexity, a natural strategy is to restrict attention to sparse patterns that retain only the most relevant connections. Such approaches are well-established in ARs, where attention follows fixed and clearly defined sparse patterns. However, in DLMs, we observe distinct sparsity behaviors: (1) attention patterns vary across heads, (2) attention patterns in each head remain highly similar across denoising steps, and (3) early denoising steps are critical for generation. These findings render sparse attention methods designed for ARs largely incompatible with DLMs, as they fail to capture head-specific structures and risk degrading generation when applied in early denoising steps. To address these challenges, we propose SparseD, a novel sparse attention method for DLMs. Leveraging the observations, SparseD only requires pre-computing head-specific sparse patterns one time, and reuses them across all steps. This prevents recomputing sparse patterns at each denoising step. Meanwhile, SparseD uses full attention in the early steps, then switches to sparse attention later to maintain generation quality. Together, these establish SparseD as a practical and efficient solution for deploying DLMs in long-context applications. Experimental results demonstrate that SparseD achieves lossless acceleration, delivering up to 1.50times speedup over FlashAttention at a 64k context length with 1,024 denoising steps.

SparseD: Attenzione Sparsa per Modelli Linguistici di Diffusione

SparseD: Sparse Attention for Diffusion Language Models

Abstract

Support