ChatPaper.aiChatPaper

SAGE: Ein Framework für präzises Retrieval in RAG-Systemen

SAGE: A Framework of Precise Retrieval for RAG

March 3, 2025
Autoren: Jintao Zhang, Guoliang Li, Jinyang Su
cs.AI

Zusammenfassung

Retrieval-augmented Generation (RAG) hat eine bemerkenswerte Fähigkeit bei der Durchführung von Frage-Antwort-Aufgaben (QA) innerhalb eines spezifizierten Korpus gezeigt. Dennoch gibt es weiterhin zahlreiche Fehlschläge von RAG in QA. Diese Fehler sind nicht ausschließlich auf die Einschränkungen von Large Language Models (LLMs) zurückzuführen; stattdessen entstehen sie hauptsächlich durch die Beschaffung ungenauer Informationen für LLMs aufgrund von zwei Einschränkungen: (1) Aktuelle RAG-Methoden segmentieren den Korpus ohne Berücksichtigung der Semantik, was es schwierig macht, relevante Kontexte zu finden, da die Korrelation zwischen Fragen und Segmenten beeinträchtigt ist. (2) Es gibt einen Kompromiss zwischen dem Fehlen wesentlicher Kontexte bei weniger abgerufenen Kontexten und dem Erhalten irrelevanter Kontexte bei mehr abgerufenen Kontexten. In diesem Artikel stellen wir ein RAG-Framework (SAGE) vor, um diese Einschränkungen zu überwinden. Erstens schlagen wir vor, ein Modell für semantische Segmentierung zu trainieren, um das Problem der Segmentierung ohne Berücksichtigung der Semantik zu lösen. Dieses Modell wird trainiert, um den Korpus in semantisch vollständige Abschnitte zu segmentieren. Zweitens entwerfen wir einen Algorithmus zur Auswahl von Abschnitten, um sicherzustellen, dass nur die relevantesten Abschnitte abgerufen werden, während irrelevante ignoriert werden. Dieser Algorithmus wählt Abschnitte dynamisch basierend auf der Abnahmegeschwindigkeit des Relevanzscores aus, was zu einer relevanteren Auswahl führt. Drittens schlagen wir vor, LLMs bewerten zu lassen, ob abgerufene Abschnitte übermäßig oder unzureichend sind, und dann die Menge des Kontexts entsprechend anzupassen, um die Präzision der abgerufenen Abschnitte weiter zu gewährleisten. Experimente zeigen, dass SAGE die Baselines durchschnittlich um 61,25 % in der Qualität von QA übertrifft. Darüber hinaus reduziert SAGE durch die Vermeidung von Rauschen im Kontext die Kosten der in der LLM-Inferenz verbrauchten Tokens und erreicht eine durchschnittliche Steigerung der Kosteneffizienz um 49,41 %. Zusätzlich bietet unsere Arbeit wertvolle Einblicke für die Verbesserung von RAG.
English
Retrieval-augmented generation (RAG) has demonstrated significant proficiency in conducting question-answering (QA) tasks within a specified corpus. Nonetheless, numerous failure instances of RAG in QA still exist. These failures are not solely attributable to the limitations of Large Language Models (LLMs); instead, they predominantly arise from the retrieval of inaccurate information for LLMs due to two limitations: (1) Current RAG methods segment the corpus without considering semantics, making it difficult to find relevant context due to impaired correlation between questions and the segments. (2) There is a trade-off between missing essential context with fewer context retrieved and getting irrelevant context with more context retrieved. In this paper, we introduce a RAG framework (SAGE), to overcome these limitations. First, to address the segmentation issue without considering semantics, we propose to train a semantic segmentation model. This model is trained to segment the corpus into semantically complete chunks. Second, to ensure that only the most relevant chunks are retrieved while the irrelevant ones are ignored, we design a chunk selection algorithm to dynamically select chunks based on the decreasing speed of the relevance score, leading to a more relevant selection. Third, to further ensure the precision of the retrieved chunks, we propose letting LLMs assess whether retrieved chunks are excessive or lacking and then adjust the amount of context accordingly. Experiments show that SAGE outperforms baselines by 61.25% in the quality of QA on average. Moreover, by avoiding retrieving noisy context, SAGE lowers the cost of the tokens consumed in LLM inference and achieves a 49.41% enhancement in cost efficiency on average. Additionally, our work offers valuable insights for boosting RAG.

Summary

AI-Generated Summary

PDF52March 10, 2025