ECoRAG : Compression guidée par l'évidentialité pour le RAG à contexte long
ECoRAG: Evidentiality-guided Compression for Long Context RAG
June 5, 2025
Auteurs: Yeonseok Jeong, Jinsu Kim, Dohyeon Lee, Seung-won Hwang
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont démontré des performances remarquables dans le domaine des questions-réponses ouvertes (ODQA) en exploitant des documents externes grâce à la génération augmentée par récupération (RAG). Pour réduire la surcharge de RAG provenant de contextes plus longs, une compression du contexte est nécessaire. Cependant, les méthodes de compression précédentes ne se concentrent pas sur le filtrage des informations non probantes, ce qui limite les performances dans le cadre de RAG basé sur les LLMs. Nous proposons donc un cadre appelé RAG guidé par l'évidentialité, ou ECoRAG. ECoRAG améliore les performances des LLMs en compressant les documents récupérés sur la base de l'évidentialité, en s'assurant que la génération de réponses est soutenue par les preuves correctes. En tant qu'étape supplémentaire, ECoRAG vérifie si le contenu compressé fournit des preuves suffisantes, et si ce n'est pas le cas, il récupère davantage jusqu'à ce que cela soit suffisant. Les expériences montrent qu'ECoRAG améliore les performances des LLMs sur les tâches ODQA, surpassant les méthodes de compression existantes. De plus, ECoRAG est très rentable, car il réduit non seulement la latence mais minimise également l'utilisation de tokens en ne conservant que les informations nécessaires pour générer la réponse correcte. Le code est disponible à l'adresse suivante : https://github.com/ldilab/ECoRAG.
English
Large Language Models (LLMs) have shown remarkable performance in Open-Domain
Question Answering (ODQA) by leveraging external documents through
Retrieval-Augmented Generation (RAG). To reduce RAG overhead, from longer
context, context compression is necessary. However, prior compression methods
do not focus on filtering out non-evidential information, which limit the
performance in LLM-based RAG. We thus propose Evidentiality-guided RAG, or
ECoRAG framework. ECoRAG improves LLM performance by compressing retrieved
documents based on evidentiality, ensuring whether answer generation is
supported by the correct evidence. As an additional step, ECoRAG reflects
whether the compressed content provides sufficient evidence, and if not,
retrieves more until sufficient. Experiments show that ECoRAG improves LLM
performance on ODQA tasks, outperforming existing compression methods.
Furthermore, ECoRAG is highly cost-efficient, as it not only reduces latency
but also minimizes token usage by retaining only the necessary information to
generate the correct answer. Code is available at
https://github.com/ldilab/ECoRAG.