Más allá de RAG: Compresión de Caché KV Consciente de la Tarea para el Razonamiento de Conocimiento Integral
Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning
March 6, 2025
Autores: Giulio Corallo, Orion Weller, Fabio Petroni, Paolo Papotti
cs.AI
Resumen
La incorporación de conocimiento externo en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) mejora su utilidad en diversas aplicaciones, pero los métodos existentes presentan compensaciones. La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) obtiene evidencia mediante búsqueda por similitud, pero la información clave puede quedar fuera de los resultados mejor clasificados. Los modelos de contexto largo pueden procesar múltiples documentos, pero son computacionalmente costosos y están limitados por el tamaño de la ventana de contexto. Inspirados por los estudiantes que condensan material de estudio para exámenes de libro abierto, proponemos la compresión de caché clave-valor (KV, por sus siglas en inglés) consciente de la tarea, que comprime el conocimiento externo en un entorno de cero o pocos ejemplos. Esto permite que los LLMs razonen de manera eficiente sobre una representación compacta de toda la información relevante. Los experimentos muestran que nuestro enfoque supera tanto a RAG como a los métodos de compresión agnósticos de la tarea. En LongBench v2, mejora la precisión hasta en 7 puntos absolutos sobre RAG con una tasa de compresión de 30x, mientras reduce la latencia de inferencia de 0.43s a 0.16s. Un conjunto de datos sintético destaca que RAG funciona bien cuando la evidencia dispersa es suficiente, mientras que la compresión consciente de la tarea es superior para tareas que requieren un conocimiento amplio.
English
Incorporating external knowledge in large language models (LLMs) enhances
their utility across diverse applications, but existing methods have
trade-offs. Retrieval-Augmented Generation (RAG) fetches evidence via
similarity search, but key information may fall outside top ranked results.
Long-context models can process multiple documents but are computationally
expensive and limited by context window size. Inspired by students condensing
study material for open-book exams, we propose task-aware key-value (KV) cache
compression, which compresses external knowledge in a zero- or few-shot setup.
This enables LLMs to reason efficiently over a compacted representation of all
relevant information. Experiments show our approach outperforms both RAG and
task-agnostic compression methods. On LongBench v2, it improves accuracy by up
to 7 absolute points over RAG with a 30x compression rate, while reducing
inference latency from 0.43s to 0.16s. A synthetic dataset highlights that RAG
performs well when sparse evidence suffices, whereas task-aware compression is
superior for broad knowledge tasks.Summary
AI-Generated Summary