IceCache: Gestione efficiente della memoria della KV-cache per LLM a sequenza lunga
IceCache: Memory-efficient KV-cache Management for Long-Sequence LLMs
April 12, 2026
Autori: Yuzhen Mao, Qitong Wang, Martin Ester, Ke Li
cs.AI
Abstract
La cache chiave-valore (KV) svolge un ruolo cruciale nell'accelerare l'inferenza nei grandi modelli linguistici (LLM) memorizzando gli stati intermedi dell'attenzione ed evitando calcoli ridondanti durante la generazione autoregressiva. Tuttavia, la sua impronta di memoria scala linearmente con la lunghezza della sequenza, portando spesso a severi colli di bottiglia della memoria su hardware con risorse limitate. Lavori precedenti hanno esplorato l'offloading della cache KV sulla CPU mantenendo solo un sottoinsieme sulla GPU, ma questi approcci spesso si basano su una selezione imprecisa dei token e soffrono di degradazione delle prestazioni in compiti di generazione lunga come il ragionamento a catena del pensiero. In questo articolo, proponiamo una nuova strategia di gestione della cache KV, IceCache, che integra il clustering semantico dei token con PagedAttention. Organizzando token semanticamente correlati in regioni di memoria contigue gestite da una struttura dati gerarchica e aggiornabile dinamicamente, il nostro metodo consente una selezione più efficiente dei token e una migliore utilizzazione della larghezza di banda di memoria durante i trasferimenti CPU-GPU. I risultati sperimentali su LongBench mostrano che, con un budget di 256 token, IceCache mantiene il 99% dell'accuratezza originale ottenuta dal modello con cache KV completa. Inoltre, rispetto ad altri metodi basati sull'offloading, IceCache raggiunge una latenza e un'accuratezza competitive o addirittura superiori utilizzando solo il 25% del budget di token della cache KV, dimostrando la sua efficacia negli scenari con sequenze lunghe. Il codice è disponibile sul nostro sito web del progetto all'indirizzo https://yuzhenmao.github.io/IceCache/.
English
Key-Value (KV) cache plays a crucial role in accelerating inference in large language models (LLMs) by storing intermediate attention states and avoiding redundant computation during autoregressive generation. However, its memory footprint scales linearly with sequence length, often leading to severe memory bottlenecks on resource-constrained hardware. Prior work has explored offloading KV cache to the CPU while retaining only a subset on the GPU, but these approaches often rely on imprecise token selection and suffer performance degradation in long-generation tasks such as chain-of-thought reasoning. In this paper, we propose a novel KV cache management strategy, IceCache, which integrates semantic token clustering with PagedAttention. By organizing semantically related tokens into contiguous memory regions managed by a hierarchical, dynamically updatable data structure, our method enables more efficient token selection and better utilization of memory bandwidth during CPU-GPU transfers. Experimental results on LongBench show that, with a 256-token budget, IceCache maintains 99% of the original accuracy achieved by the full KV cache model. Moreover, compared to other offloading-based methods, IceCache attains competitive or even superior latency and accuracy while using only 25% of the KV cache token budget, demonstrating its effectiveness in long-sequence scenarios. The code is available on our project website at https://yuzhenmao.github.io/IceCache/.