CompLLM: Compressione per Q&A con Contesti Lunghi
CompLLM: Compression for Long Context Q&A
September 23, 2025
Autori: Gabriele Berton, Jayakrishnan Unnikrishnan, Son Tran, Mubarak Shah
cs.AI
Abstract
I Large Language Model (LLM) affrontano significative sfide computazionali quando elaborano contesti lunghi a causa della complessità quadratica del meccanismo di self-attention. Sebbene i metodi di compressione soft del contesto, che mappano il testo di input in rappresentazioni latenti più piccole, abbiano mostrato potenziale, la loro adozione nel mondo reale è limitata. Le tecniche esistenti tipicamente comprimono il contesto come un’unica unità, il che comporta una complessità di compressione quadratica e l’impossibilità di riutilizzare i calcoli tra query con contesti sovrapposti. In questo lavoro, introduciamo CompLLM, una tecnica di compressione soft progettata per un impiego pratico. Invece di elaborare il contesto in modo olistico, CompLLM lo suddivide in segmenti e comprime ciascuno in modo indipendente. Questa scelta progettuale semplice produce tre proprietà critiche: efficienza, poiché il passo di compressione scala linearmente con la lunghezza del contesto; scalabilità, consentendo a modelli addestrati su sequenze brevi (ad esempio, 1k token) di generalizzare a contesti di 100k token; e riutilizzabilità, permettendo ai segmenti compressi di essere memorizzati nella cache e riutilizzati tra query diverse. I nostri esperimenti mostrano che, con un tasso di compressione di 2x, per contesti molto lunghi CompLLM accelera il Time To First Token (TTFT) fino a 4x e riduce la dimensione della cache KV del 50%. Inoltre, CompLLM raggiunge prestazioni comparabili a quelle ottenute con il contesto non compresso, e le supera persino su sequenze molto lunghe, dimostrando la sua efficacia e utilità pratica.
English
Large Language Models (LLMs) face significant computational challenges when
processing long contexts due to the quadratic complexity of self-attention.
While soft context compression methods, which map input text to smaller latent
representations, have shown promise, their real-world adoption is limited.
Existing techniques typically compress the context as a single unit, which
leads to quadratic compression complexity and an inability to reuse
computations across queries with overlapping contexts. In this work, we
introduce CompLLM, a soft compression technique designed for practical
deployment. Instead of processing the context holistically, CompLLM divides it
into segments and compresses each one independently. This simple design choice
yields three critical properties: efficiency, as the compression step scales
linearly with the context length; scalability, enabling models trained on short
sequences (e.g., 1k tokens) to generalize to contexts of 100k tokens; and
reusability, allowing compressed segments to be cached and reused across
different queries. Our experiments show that with a 2x compression rate, at
high context lengths CompLLM speeds up Time To First Token (TTFT) by up to 4x
and reduces the KV cache size by 50%. Furthermore, CompLLM achieves performance
comparable to that obtained with the uncompressed context, and even surpasses
it on very long sequences, demonstrating its effectiveness and practical
utility.