ChatPaper.aiChatPaper

За пределами RAG: Сжатие кэша ключ-значение с учетом задач для всестороннего анализа знаний

Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning

March 6, 2025
Авторы: Giulio Corallo, Orion Weller, Fabio Petroni, Paolo Papotti
cs.AI

Аннотация

Интеграция внешних знаний в крупные языковые модели (LLM) повышает их полезность в различных приложениях, однако существующие методы имеют свои компромиссы. Метод Retrieval-Augmented Generation (RAG) извлекает доказательства с помощью поиска по сходству, но ключевая информация может оказаться за пределами топовых результатов. Модели с длинным контекстом способны обрабатывать несколько документов, но они требуют значительных вычислительных ресурсов и ограничены размером контекстного окна. Вдохновленные тем, как студенты сжимают учебные материалы для экзаменов с открытой книгой, мы предлагаем сжатие кэша ключ-значение (KV) с учетом задачи, которое сжимает внешние знания в условиях нулевого или малого числа примеров. Это позволяет LLM эффективно рассуждать на основе компактного представления всей релевантной информации. Эксперименты показывают, что наш подход превосходит как RAG, так и методы сжатия, не учитывающие задачу. На наборе данных LongBench v2 он повышает точность на до 7 абсолютных пунктов по сравнению с RAG при степени сжатия 30x, одновременно сокращая время вывода с 0,43 с до 0,16 с. Синтетический набор данных демонстрирует, что RAG хорошо работает, когда достаточно разреженных доказательств, тогда как сжатие с учетом задачи превосходит его в задачах, требующих широких знаний.
English
Incorporating external knowledge in large language models (LLMs) enhances their utility across diverse applications, but existing methods have trade-offs. Retrieval-Augmented Generation (RAG) fetches evidence via similarity search, but key information may fall outside top ranked results. Long-context models can process multiple documents but are computationally expensive and limited by context window size. Inspired by students condensing study material for open-book exams, we propose task-aware key-value (KV) cache compression, which compresses external knowledge in a zero- or few-shot setup. This enables LLMs to reason efficiently over a compacted representation of all relevant information. Experiments show our approach outperforms both RAG and task-agnostic compression methods. On LongBench v2, it improves accuracy by up to 7 absolute points over RAG with a 30x compression rate, while reducing inference latency from 0.43s to 0.16s. A synthetic dataset highlights that RAG performs well when sparse evidence suffices, whereas task-aware compression is superior for broad knowledge tasks.

Summary

AI-Generated Summary

PDF247March 11, 2025