ECoRAG: Сжатие с учетом доказательности для RAG с длинным контекстом
ECoRAG: Evidentiality-guided Compression for Long Context RAG
June 5, 2025
Авторы: Yeonseok Jeong, Jinsu Kim, Dohyeon Lee, Seung-won Hwang
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют выдающиеся результаты в задачах открытого вопросно-ответного поиска (ODQA), используя внешние документы через подход Retrieval-Augmented Generation (RAG). Для снижения накладных расходов RAG при работе с длинным контекстом необходимо сжатие контекста. Однако существующие методы сжатия не фокусируются на фильтрации недоказательной информации, что ограничивает производительность LLM в рамках RAG. Мы предлагаем фреймворк Evidentiality-guided RAG, или ECoRAG. ECoRAG повышает производительность LLM, сжимая извлеченные документы на основе доказательности, обеспечивая поддержку генерации ответов корректными доказательствами. В качестве дополнительного шага ECoRAG проверяет, предоставляет ли сжатый контент достаточные доказательства, и, если нет, извлекает дополнительные, пока они не станут достаточными. Эксперименты показывают, что ECoRAG улучшает производительность LLM в задачах ODQA, превосходя существующие методы сжатия. Более того, ECoRAG является высокоэффективным с точки зрения затрат, так как не только снижает задержку, но и минимизирует использование токенов, сохраняя только необходимую информацию для генерации правильного ответа. Код доступен по адресу https://github.com/ldilab/ECoRAG.
English
Large Language Models (LLMs) have shown remarkable performance in Open-Domain
Question Answering (ODQA) by leveraging external documents through
Retrieval-Augmented Generation (RAG). To reduce RAG overhead, from longer
context, context compression is necessary. However, prior compression methods
do not focus on filtering out non-evidential information, which limit the
performance in LLM-based RAG. We thus propose Evidentiality-guided RAG, or
ECoRAG framework. ECoRAG improves LLM performance by compressing retrieved
documents based on evidentiality, ensuring whether answer generation is
supported by the correct evidence. As an additional step, ECoRAG reflects
whether the compressed content provides sufficient evidence, and if not,
retrieves more until sufficient. Experiments show that ECoRAG improves LLM
performance on ODQA tasks, outperforming existing compression methods.
Furthermore, ECoRAG is highly cost-efficient, as it not only reduces latency
but also minimizes token usage by retaining only the necessary information to
generate the correct answer. Code is available at
https://github.com/ldilab/ECoRAG.