Aandacht Is Alles Wat Je Nodig Hebt voor KV Cache in Diffusie LLM's

Samenvatting

Dit werk onderzoekt hoe sleutel-waarde (KV) caches adaptief opnieuw kunnen worden berekend voor diffusie grote taalmodellen (DLMs) om de voorspellingsnauwkeurigheid te maximaliseren terwijl de decodeerlatentie wordt geminimaliseerd. Eerdere methoden herberekenen QKV voor alle tokens bij elke denoisestap en laag, ondanks dat KV-statussen weinig veranderen over de meeste stappen, vooral in ondiepe lagen, wat leidt tot aanzienlijke redundantie. We doen drie observaties: (1) verre {bf MASK} tokens fungeren voornamelijk als een lengtebias en kunnen bloksgewijs worden gecached buiten het actieve voorspellingsvenster; (2) KV-dynamiek neemt toe met de diepte, wat suggereert dat selectief verversen vanaf diepere lagen voldoende is; en (3) het meest-aandachtige token vertoont de kleinste KV-drift, wat een conservatieve ondergrens biedt voor cacheverandering bij andere tokens. Op basis hiervan stellen we {bf Elastic-Cache} voor, een trainingsvrije, architectuuronafhankelijke strategie die gezamenlijk beslist {wanneer} te verversen (via een aandachtbewuste drifttest op het meest-aandachtige token) en {waar} te verversen (via een dieptebewust schema dat opnieuw berekent vanaf een gekozen laag terwijl ondiepe laagcaches en off-window MASK caches worden hergebruikt). In tegenstelling tot vaste-periodeschema's voert Elastic-Cache adaptieve, laagbewuste cache-updates uit voor diffusie LLMs, wat redundante berekeningen vermindert en het decoderen versnelt met verwaarloosbaar verlies in generatiekwaliteit. Experimenten op LLaDA-Instruct, LLaDA-1.5 en LLaDA-V over wiskundige redeneer- en codegeneratietaken tonen consistente snelheidswinsten: 8.7x op GSM8K (256 tokens), 45.1x op langere sequenties en 4.8x op HumanEval, terwijl consistent een hogere nauwkeurigheid wordt behouden dan de baseline. Onze methode bereikt een aanzienlijk hogere doorvoer (6.8x op GSM8K) dan bestaande op vertrouwen gebaseerde benaderingen terwijl de generatiekwaliteit behouden blijft, wat praktische implementatie van diffusie LLMs mogelijk maakt.

English

This work studies how to adaptively recompute key-value (KV) caches for diffusion large language models (DLMs) to maximize prediction accuracy while minimizing decoding latency. Prior methods' decoders recompute QKV for all tokens at every denoising step and layer, despite KV states changing little across most steps, especially in shallow layers, leading to substantial redundancy. We make three observations: (1) distant {bf MASK} tokens primarily act as a length-bias and can be cached block-wise beyond the active prediction window; (2) KV dynamics increase with depth, suggesting that selective refresh starting from deeper layers is sufficient; and (3) the most-attended token exhibits the smallest KV drift, providing a conservative lower bound on cache change for other tokens. Building on these, we propose {bf Elastic-Cache}, a training-free, architecture-agnostic strategy that jointly decides {when} to refresh (via an attention-aware drift test on the most-attended token) and {where} to refresh (via a depth-aware schedule that recomputes from a chosen layer onward while reusing shallow-layer caches and off-window MASK caches). Unlike fixed-period schemes, Elastic-Cache performs adaptive, layer-aware cache updates for diffusion LLMs, reducing redundant computation and accelerating decoding with negligible loss in generation quality. Experiments on LLaDA-Instruct, LLaDA-1.5, and LLaDA-V across mathematical reasoning and code generation tasks demonstrate consistent speedups: 8.7times on GSM8K (256 tokens), 45.1times on longer sequences, and 4.8times on HumanEval, while consistently maintaining higher accuracy than the baseline. Our method achieves significantly higher throughput (6.8times on GSM8K) than existing confidence-based approaches while preserving generation quality, enabling practical deployment of diffusion LLMs.

Aandacht Is Alles Wat Je Nodig Hebt voor KV Cache in Diffusie LLM's

Attention Is All You Need for KV Cache in Diffusion LLMs

Samenvatting

Support