CompLLM: Compressione per Q&A con Contesti Lunghi

Abstract

I Large Language Model (LLM) affrontano significative sfide computazionali quando elaborano contesti lunghi a causa della complessità quadratica del meccanismo di self-attention. Sebbene i metodi di compressione soft del contesto, che mappano il testo di input in rappresentazioni latenti più piccole, abbiano mostrato potenziale, la loro adozione nel mondo reale è limitata. Le tecniche esistenti tipicamente comprimono il contesto come un’unica unità, il che comporta una complessità di compressione quadratica e l’impossibilità di riutilizzare i calcoli tra query con contesti sovrapposti. In questo lavoro, introduciamo CompLLM, una tecnica di compressione soft progettata per un impiego pratico. Invece di elaborare il contesto in modo olistico, CompLLM lo suddivide in segmenti e comprime ciascuno in modo indipendente. Questa scelta progettuale semplice produce tre proprietà critiche: efficienza, poiché il passo di compressione scala linearmente con la lunghezza del contesto; scalabilità, consentendo a modelli addestrati su sequenze brevi (ad esempio, 1k token) di generalizzare a contesti di 100k token; e riutilizzabilità, permettendo ai segmenti compressi di essere memorizzati nella cache e riutilizzati tra query diverse. I nostri esperimenti mostrano che, con un tasso di compressione di 2x, per contesti molto lunghi CompLLM accelera il Time To First Token (TTFT) fino a 4x e riduce la dimensione della cache KV del 50%. Inoltre, CompLLM raggiunge prestazioni comparabili a quelle ottenute con il contesto non compresso, e le supera persino su sequenze molto lunghe, dimostrando la sua efficacia e utilità pratica.

English

Large Language Models (LLMs) face significant computational challenges when processing long contexts due to the quadratic complexity of self-attention. While soft context compression methods, which map input text to smaller latent representations, have shown promise, their real-world adoption is limited. Existing techniques typically compress the context as a single unit, which leads to quadratic compression complexity and an inability to reuse computations across queries with overlapping contexts. In this work, we introduce CompLLM, a soft compression technique designed for practical deployment. Instead of processing the context holistically, CompLLM divides it into segments and compresses each one independently. This simple design choice yields three critical properties: efficiency, as the compression step scales linearly with the context length; scalability, enabling models trained on short sequences (e.g., 1k tokens) to generalize to contexts of 100k tokens; and reusability, allowing compressed segments to be cached and reused across different queries. Our experiments show that with a 2x compression rate, at high context lengths CompLLM speeds up Time To First Token (TTFT) by up to 4x and reduces the KV cache size by 50%. Furthermore, CompLLM achieves performance comparable to that obtained with the uncompressed context, and even surpasses it on very long sequences, demonstrating its effectiveness and practical utility.

CompLLM: Compressione per Q&A con Contesti Lunghi

CompLLM: Compression for Long Context Q&A

Abstract

Support