SAGE: Un Framework per il Recupero Preciso in RAG

Abstract

La generazione potenziata dal recupero (RAG) ha dimostrato una significativa competenza nell'esecuzione di compiti di question-answering (QA) all'interno di un corpus specifico. Tuttavia, esistono ancora numerosi casi di fallimento di RAG nei task QA. Questi fallimenti non sono attribuibili esclusivamente ai limiti dei Large Language Models (LLM); piuttosto, derivano principalmente dal recupero di informazioni inaccurati per i LLM a causa di due limitazioni: (1) I metodi RAG attuali segmentano il corpus senza considerare la semantica, rendendo difficile trovare contesti rilevanti a causa della correlazione compromessa tra le domande e i segmenti. (2) Esiste un compromesso tra il perdere contesti essenziali con un minor numero di contesti recuperati e l'ottenere contesti irrilevanti con un maggior numero di contesti recuperati. In questo articolo, introduciamo un framework RAG (SAGE) per superare queste limitazioni. Innanzitutto, per affrontare il problema della segmentazione senza considerare la semantica, proponiamo di addestrare un modello di segmentazione semantica. Questo modello è addestrato per segmentare il corpus in blocchi semanticamente completi. In secondo luogo, per garantire che vengano recuperati solo i blocchi più rilevanti mentre quelli irrilevanti vengano ignorati, progettiamo un algoritmo di selezione dei blocchi che seleziona dinamicamente i blocchi in base alla velocità di diminuzione del punteggio di rilevanza, portando a una selezione più pertinente. In terzo luogo, per garantire ulteriormente la precisione dei blocchi recuperati, proponiamo di far valutare ai LLM se i blocchi recuperati sono eccessivi o insufficienti e quindi di regolare la quantità di contesto di conseguenza. Gli esperimenti mostrano che SAGE supera i baseline del 61,25% nella qualità del QA in media. Inoltre, evitando di recuperare contesti rumorosi, SAGE riduce il costo dei token consumati nell'inferenza dei LLM e raggiunge un miglioramento del 49,41% nell'efficienza dei costi in media. Inoltre, il nostro lavoro offre spunti preziosi per migliorare RAG.

English

Retrieval-augmented generation (RAG) has demonstrated significant proficiency in conducting question-answering (QA) tasks within a specified corpus. Nonetheless, numerous failure instances of RAG in QA still exist. These failures are not solely attributable to the limitations of Large Language Models (LLMs); instead, they predominantly arise from the retrieval of inaccurate information for LLMs due to two limitations: (1) Current RAG methods segment the corpus without considering semantics, making it difficult to find relevant context due to impaired correlation between questions and the segments. (2) There is a trade-off between missing essential context with fewer context retrieved and getting irrelevant context with more context retrieved. In this paper, we introduce a RAG framework (SAGE), to overcome these limitations. First, to address the segmentation issue without considering semantics, we propose to train a semantic segmentation model. This model is trained to segment the corpus into semantically complete chunks. Second, to ensure that only the most relevant chunks are retrieved while the irrelevant ones are ignored, we design a chunk selection algorithm to dynamically select chunks based on the decreasing speed of the relevance score, leading to a more relevant selection. Third, to further ensure the precision of the retrieved chunks, we propose letting LLMs assess whether retrieved chunks are excessive or lacking and then adjust the amount of context accordingly. Experiments show that SAGE outperforms baselines by 61.25% in the quality of QA on average. Moreover, by avoiding retrieving noisy context, SAGE lowers the cost of the tokens consumed in LLM inference and achieves a 49.41% enhancement in cost efficiency on average. Additionally, our work offers valuable insights for boosting RAG.

SAGE: Un Framework per il Recupero Preciso in RAG

SAGE: A Framework of Precise Retrieval for RAG

Abstract

Support