ChatPaper.aiChatPaper

La Atención Es Todo Lo Que Necesitas para la Caché KV en LLMs de Difusión

Attention Is All You Need for KV Cache in Diffusion LLMs

October 16, 2025
Autores: Quan Nguyen-Tri, Mukul Ranjan, Zhiqiang Shen
cs.AI

Resumen

Este trabajo estudia cómo recalcular de manera adaptativa las cachés de clave-valor (KV) para modelos de lenguaje grandes de difusión (DLMs) con el fin de maximizar la precisión en las predicciones mientras se minimiza la latencia en la decodificación. Los métodos previos recalculan QKV para todos los tokens en cada paso de eliminación de ruido y en cada capa, a pesar de que los estados KV cambian poco en la mayoría de los pasos, especialmente en las capas superficiales, lo que genera una redundancia considerable. Hacemos tres observaciones: (1) los tokens {bf MASK} distantes actúan principalmente como un sesgo de longitud y pueden almacenarse en caché por bloques más allá de la ventana de predicción activa; (2) la dinámica de KV aumenta con la profundidad, lo que sugiere que una actualización selectiva a partir de capas más profundas es suficiente; y (3) el token más atendido exhibe la menor deriva en KV, proporcionando un límite inferior conservador en el cambio de caché para otros tokens. Basándonos en esto, proponemos {bf Elastic-Cache}, una estrategia libre de entrenamiento y agnóstica a la arquitectura que decide conjuntamente {cuándo} actualizar (mediante una prueba de deriva consciente de la atención en el token más atendido) y {dónde} actualizar (mediante un programa consciente de la profundidad que recalcula a partir de una capa elegida en adelante, reutilizando las cachés de capas superficiales y las cachés de MASK fuera de la ventana). A diferencia de los esquemas de período fijo, Elastic-Cache realiza actualizaciones de caché adaptativas y conscientes de la capa para DLMs de difusión, reduciendo el cómputo redundante y acelerando la decodificación con una pérdida insignificante en la calidad de la generación. Los experimentos en LLaDA-Instruct, LLaDA-1.5 y LLaDA-V en tareas de razonamiento matemático y generación de código demuestran aceleraciones consistentes: 8.7 veces en GSM8K (256 tokens), 45.1 veces en secuencias más largas y 4.8 veces en HumanEval, manteniendo consistentemente una mayor precisión que la línea base. Nuestro método logra un rendimiento significativamente mayor (6.8 veces en GSM8K) que los enfoques basados en confianza existentes, preservando la calidad de la generación y permitiendo la implementación práctica de DLMs de difusión.
English
This work studies how to adaptively recompute key-value (KV) caches for diffusion large language models (DLMs) to maximize prediction accuracy while minimizing decoding latency. Prior methods' decoders recompute QKV for all tokens at every denoising step and layer, despite KV states changing little across most steps, especially in shallow layers, leading to substantial redundancy. We make three observations: (1) distant {bf MASK} tokens primarily act as a length-bias and can be cached block-wise beyond the active prediction window; (2) KV dynamics increase with depth, suggesting that selective refresh starting from deeper layers is sufficient; and (3) the most-attended token exhibits the smallest KV drift, providing a conservative lower bound on cache change for other tokens. Building on these, we propose {bf Elastic-Cache}, a training-free, architecture-agnostic strategy that jointly decides {when} to refresh (via an attention-aware drift test on the most-attended token) and {where} to refresh (via a depth-aware schedule that recomputes from a chosen layer onward while reusing shallow-layer caches and off-window MASK caches). Unlike fixed-period schemes, Elastic-Cache performs adaptive, layer-aware cache updates for diffusion LLMs, reducing redundant computation and accelerating decoding with negligible loss in generation quality. Experiments on LLaDA-Instruct, LLaDA-1.5, and LLaDA-V across mathematical reasoning and code generation tasks demonstrate consistent speedups: 8.7times on GSM8K (256 tokens), 45.1times on longer sequences, and 4.8times on HumanEval, while consistently maintaining higher accuracy than the baseline. Our method achieves significantly higher throughput (6.8times on GSM8K) than existing confidence-based approaches while preserving generation quality, enabling practical deployment of diffusion LLMs.
PDF352October 17, 2025