ECoRAG: Compresión Guiada por Evidencialidad para RAG de Contexto Largo
ECoRAG: Evidentiality-guided Compression for Long Context RAG
June 5, 2025
Autores: Yeonseok Jeong, Jinsu Kim, Dohyeon Lee, Seung-won Hwang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en la Respuesta a Preguntas de Dominio Abierto (ODQA, por sus siglas en inglés) al aprovechar documentos externos mediante la Generación Aumentada por Recuperación (RAG, por sus siglas en inglés). Para reducir la sobrecarga de RAG, especialmente en contextos más extensos, es necesaria la compresión del contexto. Sin embargo, los métodos de compresión previos no se centran en filtrar la información no evidencial, lo que limita el rendimiento en RAG basado en LLMs. Por ello, proponemos el marco de RAG Guiado por Evidencialidad, o ECoRAG. ECoRAG mejora el rendimiento de los LLMs al comprimir los documentos recuperados en función de la evidencialidad, asegurando que la generación de respuestas esté respaldada por la evidencia correcta. Como paso adicional, ECoRAG evalúa si el contenido comprimido proporciona evidencia suficiente y, de no ser así, recupera más información hasta alcanzar la suficiencia. Los experimentos muestran que ECoRAG mejora el rendimiento de los LLMs en tareas de ODQA, superando a los métodos de compresión existentes. Además, ECoRAG es altamente eficiente en costos, ya que no solo reduce la latencia sino que también minimiza el uso de tokens al retener únicamente la información necesaria para generar la respuesta correcta. El código está disponible en https://github.com/ldilab/ECoRAG.
English
Large Language Models (LLMs) have shown remarkable performance in Open-Domain
Question Answering (ODQA) by leveraging external documents through
Retrieval-Augmented Generation (RAG). To reduce RAG overhead, from longer
context, context compression is necessary. However, prior compression methods
do not focus on filtering out non-evidential information, which limit the
performance in LLM-based RAG. We thus propose Evidentiality-guided RAG, or
ECoRAG framework. ECoRAG improves LLM performance by compressing retrieved
documents based on evidentiality, ensuring whether answer generation is
supported by the correct evidence. As an additional step, ECoRAG reflects
whether the compressed content provides sufficient evidence, and if not,
retrieves more until sufficient. Experiments show that ECoRAG improves LLM
performance on ODQA tasks, outperforming existing compression methods.
Furthermore, ECoRAG is highly cost-efficient, as it not only reduces latency
but also minimizes token usage by retaining only the necessary information to
generate the correct answer. Code is available at
https://github.com/ldilab/ECoRAG.