CompLLM: Kompression für Fragen und Antworten in langen Kontexten
CompLLM: Compression for Long Context Q&A
September 23, 2025
papers.authors: Gabriele Berton, Jayakrishnan Unnikrishnan, Son Tran, Mubarak Shah
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) stehen vor erheblichen rechnerischen Herausforderungen bei der Verarbeitung langer Kontexte aufgrund der quadratischen Komplexität der Selbstaufmerksamkeit. Obwohl Soft-Context-Kompressionsmethoden, die Eingabetext in kleinere latente Repräsentationen abbilden, vielversprechend sind, ist ihre praktische Anwendung begrenzt. Bestehende Techniken komprimieren den Kontext typischerweise als eine Einheit, was zu einer quadratischen Kompressionskomplexität und der Unfähigkeit führt, Berechnungen über Abfragen mit überlappenden Kontexten wiederzuverwenden. In dieser Arbeit stellen wir CompLLM vor, eine Soft-Kompressionsmethode, die für den praktischen Einsatz konzipiert ist. Anstatt den Kontext ganzheitlich zu verarbeiten, teilt CompLLM ihn in Segmente auf und komprimiert jedes unabhängig. Diese einfache Designentscheidung führt zu drei entscheidenden Eigenschaften: Effizienz, da der Kompressionsschritt linear mit der Kontextlänge skaliert; Skalierbarkeit, die es Modellen, die auf kurzen Sequenzen (z.B. 1k Token) trainiert wurden, ermöglicht, auf Kontexte von 100k Token zu generalisieren; und Wiederverwendbarkeit, die es erlaubt, komprimierte Segmente zwischen verschiedenen Abfragen zu cachen und wiederzuverwenden. Unsere Experimente zeigen, dass CompLLM bei einer 2-fachen Kompressionsrate bei hohen Kontextlängen die Time To First Token (TTFT) um bis zu 4x beschleunigt und die Größe des KV-Caches um 50 % reduziert. Darüber hinaus erreicht CompLLM eine Leistung, die mit der des unkomprimierten Kontexts vergleichbar ist, und übertrifft diese sogar bei sehr langen Sequenzen, was seine Effektivität und praktische Nützlichkeit unterstreicht.
English
Large Language Models (LLMs) face significant computational challenges when
processing long contexts due to the quadratic complexity of self-attention.
While soft context compression methods, which map input text to smaller latent
representations, have shown promise, their real-world adoption is limited.
Existing techniques typically compress the context as a single unit, which
leads to quadratic compression complexity and an inability to reuse
computations across queries with overlapping contexts. In this work, we
introduce CompLLM, a soft compression technique designed for practical
deployment. Instead of processing the context holistically, CompLLM divides it
into segments and compresses each one independently. This simple design choice
yields three critical properties: efficiency, as the compression step scales
linearly with the context length; scalability, enabling models trained on short
sequences (e.g., 1k tokens) to generalize to contexts of 100k tokens; and
reusability, allowing compressed segments to be cached and reused across
different queries. Our experiments show that with a 2x compression rate, at
high context lengths CompLLM speeds up Time To First Token (TTFT) by up to 4x
and reduces the KV cache size by 50%. Furthermore, CompLLM achieves performance
comparable to that obtained with the uncompressed context, and even surpasses
it on very long sequences, demonstrating its effectiveness and practical
utility.