ChatPaper.aiChatPaper

L'Attenzione è Tutto Ciò di Cui Hai Bisogno per la Cache KV nei Modelli Linguistici di Diffusione

Attention Is All You Need for KV Cache in Diffusion LLMs

October 16, 2025
Autori: Quan Nguyen-Tri, Mukul Ranjan, Zhiqiang Shen
cs.AI

Abstract

Questo lavoro studia come ricomputare in modo adattivo le cache chiave-valore (KV) per i modelli linguistici di diffusione (DLM) al fine di massimizzare l'accuratezza delle previsioni riducendo al minimo la latenza di decodifica. I decodificatori dei metodi precedenti ricomputano QKV per tutti i token a ogni passo di denoising e a ogni livello, nonostante gli stati KV cambino poco nella maggior parte dei passi, specialmente nei livelli superficiali, portando a una sostanziale ridondanza. Facciamo tre osservazioni: (1) i token {bf MASK} distanti agiscono principalmente come un bias di lunghezza e possono essere memorizzati in cache a blocchi oltre la finestra di previsione attiva; (2) le dinamiche KV aumentano con la profondità, suggerendo che un aggiornamento selettivo a partire dai livelli più profondi è sufficiente; e (3) il token con il maggior numero di attenzioni mostra la minima deriva KV, fornendo un limite inferiore conservativo sul cambiamento della cache per gli altri token. Basandoci su queste osservazioni, proponiamo {bf Elastic-Cache}, una strategia senza addestramento e indipendente dall'architettura che decide congiuntamente {quando} aggiornare (tramite un test di deriva basato sull'attenzione sul token con il maggior numero di attenzioni) e {dove} aggiornare (tramite una pianificazione basata sulla profondità che ricomputa a partire da un livello scelto in poi, riutilizzando le cache dei livelli superficiali e le cache MASK fuori dalla finestra). A differenza degli schemi a periodo fisso, Elastic-Cache esegue aggiornamenti adattivi e consapevoli del livello delle cache per i DLM, riducendo il calcolo ridondante e accelerando la decodifica con una perdita trascurabile nella qualità della generazione. Esperimenti su LLaDA-Instruct, LLaDA-1.5 e LLaDA-V su compiti di ragionamento matematico e generazione di codice dimostrano accelerazioni consistenti: 8.7 volte su GSM8K (256 token), 45.1 volte su sequenze più lunghe e 4.8 volte su HumanEval, mantenendo costantemente un'accuratezza superiore rispetto alla baseline. Il nostro metodo raggiunge un throughput significativamente più alto (6.8 volte su GSM8K) rispetto agli approcci esistenti basati sulla confidenza, preservando la qualità della generazione e consentendo la distribuzione pratica dei DLM.
English
This work studies how to adaptively recompute key-value (KV) caches for diffusion large language models (DLMs) to maximize prediction accuracy while minimizing decoding latency. Prior methods' decoders recompute QKV for all tokens at every denoising step and layer, despite KV states changing little across most steps, especially in shallow layers, leading to substantial redundancy. We make three observations: (1) distant {bf MASK} tokens primarily act as a length-bias and can be cached block-wise beyond the active prediction window; (2) KV dynamics increase with depth, suggesting that selective refresh starting from deeper layers is sufficient; and (3) the most-attended token exhibits the smallest KV drift, providing a conservative lower bound on cache change for other tokens. Building on these, we propose {bf Elastic-Cache}, a training-free, architecture-agnostic strategy that jointly decides {when} to refresh (via an attention-aware drift test on the most-attended token) and {where} to refresh (via a depth-aware schedule that recomputes from a chosen layer onward while reusing shallow-layer caches and off-window MASK caches). Unlike fixed-period schemes, Elastic-Cache performs adaptive, layer-aware cache updates for diffusion LLMs, reducing redundant computation and accelerating decoding with negligible loss in generation quality. Experiments on LLaDA-Instruct, LLaDA-1.5, and LLaDA-V across mathematical reasoning and code generation tasks demonstrate consistent speedups: 8.7times on GSM8K (256 tokens), 45.1times on longer sequences, and 4.8times on HumanEval, while consistently maintaining higher accuracy than the baseline. Our method achieves significantly higher throughput (6.8times on GSM8K) than existing confidence-based approaches while preserving generation quality, enabling practical deployment of diffusion LLMs.
PDF352October 17, 2025