Sparse-dLLM: Aceleración de LLMs de difusión con expulsión dinámica de caché
Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction
August 4, 2025
Autores: Yuerong Song, Xiaoran Liu, Ruixiao Li, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala basados en Difusión (dLLMs) permiten avances en razonamiento y decodificación paralela, pero sufren de una complejidad computacional cuadrática prohibitiva y un alto consumo de memoria durante la inferencia. Las técnicas actuales de almacenamiento en caché aceleran la decodificación al guardar estados completos de las capas, pero imponen un uso sustancial de memoria que limita las aplicaciones de contexto largo. Nuestro análisis de los patrones de atención en dLLMs revela una esparsidad persistente entre capas, donde los tokens clave permanecen destacados a lo largo de los pasos de decodificación y los tokens de baja relevancia siguen siendo poco importantes, lo que motiva la expulsión selectiva de la caché. Proponemos Sparse-dLLM, el primer marco libre de entrenamiento que integra la expulsión dinámica de la caché con atención dispersa mediante un almacenamiento en caché bidireccional disperso y retardado. Al aprovechar la estabilidad de la relevancia de los tokens a lo largo de los pasos, retiene los tokens críticos y expulsa dinámicamente las entradas de prefijo/sufijo poco importantes utilizando una estrategia guiada por la atención. Experimentos extensos en las series LLaDA y Dream demuestran que Sparse-dLLM logra un rendimiento hasta 10 veces mayor que los dLLMs convencionales, con un desempeño comparable y costos de memoria máxima similares, superando a métodos anteriores en eficiencia y efectividad.
English
Diffusion Large Language Models (dLLMs) enable breakthroughs in reasoning and
parallel decoding but suffer from prohibitive quadratic computational
complexity and memory overhead during inference. Current caching techniques
accelerate decoding by storing full-layer states, yet impose substantial memory
usage that limit long-context applications. Our analysis of attention patterns
in dLLMs reveals persistent cross-layer sparsity, with pivotal tokens remaining
salient across decoding steps and low-relevance tokens staying unimportant,
motivating selective cache eviction. We propose Sparse-dLLM, the first
training-free framework integrating dynamic cache eviction with sparse
attention via delayed bidirectional sparse caching. By leveraging the stability
of token saliency over steps, it retains critical tokens and dynamically evicts
unimportant prefix/suffix entries using an attention-guided strategy. Extensive
experiments on LLaDA and Dream series demonstrate Sparse-dLLM achieves up to
10times higher throughput than vanilla dLLMs, with comparable performance
and similar peak memory costs, outperforming previous methods in efficiency and
effectiveness.