ChatPaper.aiChatPaper

Atenção é Tudo o que Você Precisa para o Cache KV em LLMs de Difusão

Attention Is All You Need for KV Cache in Diffusion LLMs

October 16, 2025
Autores: Quan Nguyen-Tri, Mukul Ranjan, Zhiqiang Shen
cs.AI

Resumo

Este trabalho estuda como recalcular de forma adaptativa os caches de chave-valor (KV) para modelos de linguagem de difusão em larga escala (DLMs) a fim de maximizar a precisão das previsões enquanto minimiza a latência de decodificação. Métodos anteriores recalcularam QKV para todos os tokens em cada etapa de remoção de ruído e camada, apesar dos estados KV mudarem pouco na maioria das etapas, especialmente em camadas mais superficiais, resultando em redundância substancial. Fizemos três observações: (1) tokens {bf MASK} distantes atuam principalmente como um viés de comprimento e podem ser armazenados em cache em blocos além da janela de previsão ativa; (2) a dinâmica KV aumenta com a profundidade, sugerindo que uma atualização seletiva a partir de camadas mais profundas é suficiente; e (3) o token mais atendido exibe o menor desvio KV, fornecendo um limite inferior conservador para a mudança de cache em outros tokens. Com base nisso, propomos {bf Elastic-Cache}, uma estratégia livre de treinamento e independente de arquitetura que decide conjuntamente {quando} atualizar (por meio de um teste de desvio baseado em atenção no token mais atendido) e {onde} atualizar (por meio de um cronograma consciente da profundidade que recalcula a partir de uma camada escolhida enquanto reutiliza caches de camadas superficiais e caches MASK fora da janela). Diferente de esquemas de período fixo, o Elastic-Cache realiza atualizações de cache adaptativas e conscientes da camada para DLMs, reduzindo a computação redundante e acelerando a decodificação com perda insignificante na qualidade da geração. Experimentos em LLaDA-Instruct, LLaDA-1.5 e LLaDA-V em tarefas de raciocínio matemático e geração de código demonstram acelerações consistentes: 8,7 vezes no GSM8K (256 tokens), 45,1 vezes em sequências mais longas e 4,8 vezes no HumanEval, mantendo consistentemente maior precisão que a linha de base. Nosso método alcança uma taxa de transferência significativamente maior (6,8 vezes no GSM8K) que abordagens baseadas em confiança existentes, preservando a qualidade da geração e permitindo a implantação prática de DLMs.
English
This work studies how to adaptively recompute key-value (KV) caches for diffusion large language models (DLMs) to maximize prediction accuracy while minimizing decoding latency. Prior methods' decoders recompute QKV for all tokens at every denoising step and layer, despite KV states changing little across most steps, especially in shallow layers, leading to substantial redundancy. We make three observations: (1) distant {bf MASK} tokens primarily act as a length-bias and can be cached block-wise beyond the active prediction window; (2) KV dynamics increase with depth, suggesting that selective refresh starting from deeper layers is sufficient; and (3) the most-attended token exhibits the smallest KV drift, providing a conservative lower bound on cache change for other tokens. Building on these, we propose {bf Elastic-Cache}, a training-free, architecture-agnostic strategy that jointly decides {when} to refresh (via an attention-aware drift test on the most-attended token) and {where} to refresh (via a depth-aware schedule that recomputes from a chosen layer onward while reusing shallow-layer caches and off-window MASK caches). Unlike fixed-period schemes, Elastic-Cache performs adaptive, layer-aware cache updates for diffusion LLMs, reducing redundant computation and accelerating decoding with negligible loss in generation quality. Experiments on LLaDA-Instruct, LLaDA-1.5, and LLaDA-V across mathematical reasoning and code generation tasks demonstrate consistent speedups: 8.7times on GSM8K (256 tokens), 45.1times on longer sequences, and 4.8times on HumanEval, while consistently maintaining higher accuracy than the baseline. Our method achieves significantly higher throughput (6.8times on GSM8K) than existing confidence-based approaches while preserving generation quality, enabling practical deployment of diffusion LLMs.
PDF352October 17, 2025