Voorbij RAG: Taakbewuste KV-cachecompressie voor uitgebreide kennistoepassing

Samenvatting

Het integreren van externe kennis in grote taalmodellen (LLMs) vergroot hun nut in diverse toepassingen, maar bestaande methoden hebben afwegingen. Retrieval-Augmented Generation (RAG) haalt bewijs op via gelijkeniszoekopdrachten, maar cruciale informatie kan buiten de hoogst gerangschikte resultaten vallen. Lang-contextmodellen kunnen meerdere documenten verwerken, maar zijn rekenkundig duur en beperkt door de grootte van het contextvenster. Geïnspireerd door studenten die studiemateriaal samenvatten voor open-boekexamens, stellen we taakbewuste key-value (KV) cachecompressie voor, die externe kennis comprimeert in een zero- of few-shot opzet. Hierdoor kunnen LLMs efficiënt redeneren over een gecomprimeerde weergave van alle relevante informatie. Experimenten tonen aan dat onze aanpak zowel RAG als taakagnostische compressiemethoden overtreft. Op LongBench v2 verbetert het de nauwkeurigheid met tot 7 absolute punten ten opzichte van RAG met een compressieratio van 30x, terwijl de inferentielatentie wordt teruggebracht van 0,43s naar 0,16s. Een synthetische dataset benadrukt dat RAG goed presteert wanneer schaars bewijs voldoende is, terwijl taakbewuste compressie superieur is voor taken die brede kennis vereisen.

English

Incorporating external knowledge in large language models (LLMs) enhances their utility across diverse applications, but existing methods have trade-offs. Retrieval-Augmented Generation (RAG) fetches evidence via similarity search, but key information may fall outside top ranked results. Long-context models can process multiple documents but are computationally expensive and limited by context window size. Inspired by students condensing study material for open-book exams, we propose task-aware key-value (KV) cache compression, which compresses external knowledge in a zero- or few-shot setup. This enables LLMs to reason efficiently over a compacted representation of all relevant information. Experiments show our approach outperforms both RAG and task-agnostic compression methods. On LongBench v2, it improves accuracy by up to 7 absolute points over RAG with a 30x compression rate, while reducing inference latency from 0.43s to 0.16s. A synthetic dataset highlights that RAG performs well when sparse evidence suffices, whereas task-aware compression is superior for broad knowledge tasks.

Voorbij RAG: Taakbewuste KV-cachecompressie voor uitgebreide kennistoepassing

Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning

Samenvatting

Support