Voorbij RAG: Taakbewuste KV-cachecompressie voor uitgebreide kennistoepassing
Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning
March 6, 2025
Auteurs: Giulio Corallo, Orion Weller, Fabio Petroni, Paolo Papotti
cs.AI
Samenvatting
Het integreren van externe kennis in grote taalmodellen (LLMs) vergroot hun nut in diverse toepassingen, maar bestaande methoden hebben afwegingen. Retrieval-Augmented Generation (RAG) haalt bewijs op via gelijkeniszoekopdrachten, maar cruciale informatie kan buiten de hoogst gerangschikte resultaten vallen. Lang-contextmodellen kunnen meerdere documenten verwerken, maar zijn rekenkundig duur en beperkt door de grootte van het contextvenster. Geïnspireerd door studenten die studiemateriaal samenvatten voor open-boekexamens, stellen we taakbewuste key-value (KV) cachecompressie voor, die externe kennis comprimeert in een zero- of few-shot opzet. Hierdoor kunnen LLMs efficiënt redeneren over een gecomprimeerde weergave van alle relevante informatie. Experimenten tonen aan dat onze aanpak zowel RAG als taakagnostische compressiemethoden overtreft. Op LongBench v2 verbetert het de nauwkeurigheid met tot 7 absolute punten ten opzichte van RAG met een compressieratio van 30x, terwijl de inferentielatentie wordt teruggebracht van 0,43s naar 0,16s. Een synthetische dataset benadrukt dat RAG goed presteert wanneer schaars bewijs voldoende is, terwijl taakbewuste compressie superieur is voor taken die brede kennis vereisen.
English
Incorporating external knowledge in large language models (LLMs) enhances
their utility across diverse applications, but existing methods have
trade-offs. Retrieval-Augmented Generation (RAG) fetches evidence via
similarity search, but key information may fall outside top ranked results.
Long-context models can process multiple documents but are computationally
expensive and limited by context window size. Inspired by students condensing
study material for open-book exams, we propose task-aware key-value (KV) cache
compression, which compresses external knowledge in a zero- or few-shot setup.
This enables LLMs to reason efficiently over a compacted representation of all
relevant information. Experiments show our approach outperforms both RAG and
task-agnostic compression methods. On LongBench v2, it improves accuracy by up
to 7 absolute points over RAG with a 30x compression rate, while reducing
inference latency from 0.43s to 0.16s. A synthetic dataset highlights that RAG
performs well when sparse evidence suffices, whereas task-aware compression is
superior for broad knowledge tasks.Summary
AI-Generated Summary