CompLLM: Compressie voor Vraag- en Antwoordsystemen met Lange Context

Samenvatting

Grote Taalmodellen (LLMs) worden geconfronteerd met aanzienlijke computationele uitdagingen bij het verwerken van lange contexten vanwege de kwadratische complexiteit van zelf-attentie. Hoewel zachte contextcompressiemethoden, waarbij invoertekst wordt omgezet in kleinere latente representaties, veelbelovend zijn, blijft hun praktische adoptie beperkt. Bestaande technieken comprimeren de context meestal als één geheel, wat leidt tot kwadratische compressiecomplexiteit en het onvermogen om berekeningen te hergebruiken bij queries met overlappende contexten. In dit werk introduceren we CompLLM, een zachte compressietechniek die is ontworpen voor praktische implementatie. In plaats van de context holistisch te verwerken, verdeelt CompLLM deze in segmenten en comprimeert elk segment onafhankelijk. Deze eenvoudige ontwerpkeuze levert drie cruciale eigenschappen op: efficiëntie, omdat de compressiestap lineair schaalt met de contextlengte; schaalbaarheid, waardoor modellen die zijn getraind op korte sequenties (bijv. 1k tokens) kunnen generaliseren naar contexten van 100k tokens; en herbruikbaarheid, waardoor gecomprimeerde segmenten kunnen worden gecached en hergebruikt bij verschillende queries. Onze experimenten tonen aan dat CompLLM bij een compressieratio van 2x en bij hoge contextlengtes de Time To First Token (TTFT) tot wel 4x versnelt en de grootte van de KV-cache met 50% reduceert. Bovendien presteert CompLLM vergelijkbaar met de ongecomprimeerde context en overtreft het deze zelfs bij zeer lange sequenties, wat de effectiviteit en praktische bruikbaarheid ervan aantoont.

English

Large Language Models (LLMs) face significant computational challenges when processing long contexts due to the quadratic complexity of self-attention. While soft context compression methods, which map input text to smaller latent representations, have shown promise, their real-world adoption is limited. Existing techniques typically compress the context as a single unit, which leads to quadratic compression complexity and an inability to reuse computations across queries with overlapping contexts. In this work, we introduce CompLLM, a soft compression technique designed for practical deployment. Instead of processing the context holistically, CompLLM divides it into segments and compresses each one independently. This simple design choice yields three critical properties: efficiency, as the compression step scales linearly with the context length; scalability, enabling models trained on short sequences (e.g., 1k tokens) to generalize to contexts of 100k tokens; and reusability, allowing compressed segments to be cached and reused across different queries. Our experiments show that with a 2x compression rate, at high context lengths CompLLM speeds up Time To First Token (TTFT) by up to 4x and reduces the KV cache size by 50%. Furthermore, CompLLM achieves performance comparable to that obtained with the uncompressed context, and even surpasses it on very long sequences, demonstrating its effectiveness and practical utility.

CompLLM: Compressie voor Vraag- en Antwoordsystemen met Lange Context

CompLLM: Compression for Long Context Q&A

Samenvatting

Support