SAGE : Un cadre de récupération précise pour les systèmes RAG

papers.abstract

La génération augmentée par récupération (RAG) a démontré une compétence significative dans l'exécution de tâches de question-réponse (QA) au sein d'un corpus spécifié. Néanmoins, de nombreux cas d'échec de RAG en QA persistent. Ces échecs ne sont pas uniquement attribuables aux limitations des modèles de langage de grande taille (LLMs) ; ils découlent principalement de la récupération d'informations inexactes pour les LLMs, en raison de deux limitations : (1) Les méthodes RAG actuelles segmentent le corpus sans tenir compte de la sémantique, rendant difficile la recherche de contexte pertinent en raison d'une corrélation altérée entre les questions et les segments. (2) Il existe un compromis entre l'omission de contexte essentiel avec moins de contexte récupéré et l'obtention de contexte non pertinent avec plus de contexte récupéré. Dans cet article, nous introduisons un cadre RAG (SAGE) pour surmonter ces limitations. Premièrement, pour résoudre le problème de segmentation sans considération sémantique, nous proposons d'entraîner un modèle de segmentation sémantique. Ce modèle est entraîné pour segmenter le corpus en morceaux sémantiquement complets. Deuxièmement, pour garantir que seuls les morceaux les plus pertinents sont récupérés tout en ignorant ceux qui ne le sont pas, nous concevons un algorithme de sélection de morceaux pour sélectionner dynamiquement les morceaux en fonction de la vitesse de décroissance du score de pertinence, conduisant à une sélection plus pertinente. Troisièmement, pour assurer davantage la précision des morceaux récupérés, nous proposons de laisser les LLMs évaluer si les morceaux récupérés sont excessifs ou insuffisants, puis d'ajuster la quantité de contexte en conséquence. Les expériences montrent que SAGE surpasse les références de 61,25 % en moyenne en termes de qualité de QA. De plus, en évitant de récupérer un contexte bruyant, SAGE réduit le coût des tokens consommés dans l'inférence LLM et améliore l'efficacité des coûts de 49,41 % en moyenne. Par ailleurs, notre travail offre des perspectives précieuses pour améliorer RAG.

English

Retrieval-augmented generation (RAG) has demonstrated significant proficiency in conducting question-answering (QA) tasks within a specified corpus. Nonetheless, numerous failure instances of RAG in QA still exist. These failures are not solely attributable to the limitations of Large Language Models (LLMs); instead, they predominantly arise from the retrieval of inaccurate information for LLMs due to two limitations: (1) Current RAG methods segment the corpus without considering semantics, making it difficult to find relevant context due to impaired correlation between questions and the segments. (2) There is a trade-off between missing essential context with fewer context retrieved and getting irrelevant context with more context retrieved. In this paper, we introduce a RAG framework (SAGE), to overcome these limitations. First, to address the segmentation issue without considering semantics, we propose to train a semantic segmentation model. This model is trained to segment the corpus into semantically complete chunks. Second, to ensure that only the most relevant chunks are retrieved while the irrelevant ones are ignored, we design a chunk selection algorithm to dynamically select chunks based on the decreasing speed of the relevance score, leading to a more relevant selection. Third, to further ensure the precision of the retrieved chunks, we propose letting LLMs assess whether retrieved chunks are excessive or lacking and then adjust the amount of context accordingly. Experiments show that SAGE outperforms baselines by 61.25% in the quality of QA on average. Moreover, by avoiding retrieving noisy context, SAGE lowers the cost of the tokens consumed in LLM inference and achieves a 49.41% enhancement in cost efficiency on average. Additionally, our work offers valuable insights for boosting RAG.

SAGE : Un cadre de récupération précise pour les systèmes RAG

SAGE: A Framework of Precise Retrieval for RAG

papers.abstract

Support