ECoRAG: Сжатие с учетом доказательности для RAG с длинным контекстом

Аннотация

Крупные языковые модели (LLM) демонстрируют выдающиеся результаты в задачах открытого вопросно-ответного поиска (ODQA), используя внешние документы через подход Retrieval-Augmented Generation (RAG). Для снижения накладных расходов RAG при работе с длинным контекстом необходимо сжатие контекста. Однако существующие методы сжатия не фокусируются на фильтрации недоказательной информации, что ограничивает производительность LLM в рамках RAG. Мы предлагаем фреймворк Evidentiality-guided RAG, или ECoRAG. ECoRAG повышает производительность LLM, сжимая извлеченные документы на основе доказательности, обеспечивая поддержку генерации ответов корректными доказательствами. В качестве дополнительного шага ECoRAG проверяет, предоставляет ли сжатый контент достаточные доказательства, и, если нет, извлекает дополнительные, пока они не станут достаточными. Эксперименты показывают, что ECoRAG улучшает производительность LLM в задачах ODQA, превосходя существующие методы сжатия. Более того, ECoRAG является высокоэффективным с точки зрения затрат, так как не только снижает задержку, но и минимизирует использование токенов, сохраняя только необходимую информацию для генерации правильного ответа. Код доступен по адресу https://github.com/ldilab/ECoRAG.

English

Large Language Models (LLMs) have shown remarkable performance in Open-Domain Question Answering (ODQA) by leveraging external documents through Retrieval-Augmented Generation (RAG). To reduce RAG overhead, from longer context, context compression is necessary. However, prior compression methods do not focus on filtering out non-evidential information, which limit the performance in LLM-based RAG. We thus propose Evidentiality-guided RAG, or ECoRAG framework. ECoRAG improves LLM performance by compressing retrieved documents based on evidentiality, ensuring whether answer generation is supported by the correct evidence. As an additional step, ECoRAG reflects whether the compressed content provides sufficient evidence, and if not, retrieves more until sufficient. Experiments show that ECoRAG improves LLM performance on ODQA tasks, outperforming existing compression methods. Furthermore, ECoRAG is highly cost-efficient, as it not only reduces latency but also minimizes token usage by retaining only the necessary information to generate the correct answer. Code is available at https://github.com/ldilab/ECoRAG.

ECoRAG: Сжатие с учетом доказательности для RAG с длинным контекстом

ECoRAG: Evidentiality-guided Compression for Long Context RAG

Аннотация

Support