Sparse-dLLM: Aceleración de LLMs de difusión con expulsión dinámica de caché

Resumen

Los Modelos de Lenguaje de Gran Escala basados en Difusión (dLLMs) permiten avances en razonamiento y decodificación paralela, pero sufren de una complejidad computacional cuadrática prohibitiva y un alto consumo de memoria durante la inferencia. Las técnicas actuales de almacenamiento en caché aceleran la decodificación al guardar estados completos de las capas, pero imponen un uso sustancial de memoria que limita las aplicaciones de contexto largo. Nuestro análisis de los patrones de atención en dLLMs revela una esparsidad persistente entre capas, donde los tokens clave permanecen destacados a lo largo de los pasos de decodificación y los tokens de baja relevancia siguen siendo poco importantes, lo que motiva la expulsión selectiva de la caché. Proponemos Sparse-dLLM, el primer marco libre de entrenamiento que integra la expulsión dinámica de la caché con atención dispersa mediante un almacenamiento en caché bidireccional disperso y retardado. Al aprovechar la estabilidad de la relevancia de los tokens a lo largo de los pasos, retiene los tokens críticos y expulsa dinámicamente las entradas de prefijo/sufijo poco importantes utilizando una estrategia guiada por la atención. Experimentos extensos en las series LLaDA y Dream demuestran que Sparse-dLLM logra un rendimiento hasta 10 veces mayor que los dLLMs convencionales, con un desempeño comparable y costos de memoria máxima similares, superando a métodos anteriores en eficiencia y efectividad.

English

Diffusion Large Language Models (dLLMs) enable breakthroughs in reasoning and parallel decoding but suffer from prohibitive quadratic computational complexity and memory overhead during inference. Current caching techniques accelerate decoding by storing full-layer states, yet impose substantial memory usage that limit long-context applications. Our analysis of attention patterns in dLLMs reveals persistent cross-layer sparsity, with pivotal tokens remaining salient across decoding steps and low-relevance tokens staying unimportant, motivating selective cache eviction. We propose Sparse-dLLM, the first training-free framework integrating dynamic cache eviction with sparse attention via delayed bidirectional sparse caching. By leveraging the stability of token saliency over steps, it retains critical tokens and dynamically evicts unimportant prefix/suffix entries using an attention-guided strategy. Extensive experiments on LLaDA and Dream series demonstrate Sparse-dLLM achieves up to 10times higher throughput than vanilla dLLMs, with comparable performance and similar peak memory costs, outperforming previous methods in efficiency and effectiveness.

Sparse-dLLM: Aceleración de LLMs de difusión con expulsión dinámica de caché

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction

Resumen

Support