ChatPaper.aiChatPaper

SAGE: Um Framework de Recuperação Preciso para RAG

SAGE: A Framework of Precise Retrieval for RAG

March 3, 2025
Autores: Jintao Zhang, Guoliang Li, Jinyang Su
cs.AI

Resumo

A geração aumentada por recuperação (RAG, do inglês Retrieval-Augmented Generation) tem demonstrado proficiência significativa na execução de tarefas de questionamento e resposta (QA, do inglês Question-Answering) dentro de um corpus específico. No entanto, ainda existem inúmeros casos de falha do RAG em QA. Essas falhas não são atribuíveis apenas às limitações dos Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models); em vez disso, surgem predominantemente da recuperação de informações imprecisas para os LLMs devido a duas limitações: (1) Os métodos atuais de RAG segmentam o corpus sem considerar a semântica, dificultando a localização de contextos relevantes devido à correlação prejudicada entre as perguntas e os segmentos. (2) Existe uma troca entre perder contexto essencial ao recuperar menos contexto e obter contexto irrelevante ao recuperar mais contexto. Neste artigo, introduzimos um framework RAG (SAGE) para superar essas limitações. Primeiro, para abordar o problema de segmentação sem considerar a semântica, propomos treinar um modelo de segmentação semântica. Esse modelo é treinado para segmentar o corpus em blocos semanticamente completos. Segundo, para garantir que apenas os blocos mais relevantes sejam recuperados enquanto os irrelevantes são ignorados, projetamos um algoritmo de seleção de blocos que seleciona dinamicamente os blocos com base na velocidade de decréscimo da pontuação de relevância, resultando em uma seleção mais relevante. Terceiro, para garantir ainda mais a precisão dos blocos recuperados, propomos permitir que os LLMs avaliem se os blocos recuperados são excessivos ou insuficientes e, em seguida, ajustem a quantidade de contexto de acordo. Experimentos mostram que o SAGE supera as baselines em 61,25% na qualidade do QA, em média. Além disso, ao evitar a recuperação de contexto ruidoso, o SAGE reduz o custo dos tokens consumidos na inferência do LLM e alcança uma melhoria de 49,41% na eficiência de custo, em média. Adicionalmente, nosso trabalho oferece insights valiosos para impulsionar o RAG.
English
Retrieval-augmented generation (RAG) has demonstrated significant proficiency in conducting question-answering (QA) tasks within a specified corpus. Nonetheless, numerous failure instances of RAG in QA still exist. These failures are not solely attributable to the limitations of Large Language Models (LLMs); instead, they predominantly arise from the retrieval of inaccurate information for LLMs due to two limitations: (1) Current RAG methods segment the corpus without considering semantics, making it difficult to find relevant context due to impaired correlation between questions and the segments. (2) There is a trade-off between missing essential context with fewer context retrieved and getting irrelevant context with more context retrieved. In this paper, we introduce a RAG framework (SAGE), to overcome these limitations. First, to address the segmentation issue without considering semantics, we propose to train a semantic segmentation model. This model is trained to segment the corpus into semantically complete chunks. Second, to ensure that only the most relevant chunks are retrieved while the irrelevant ones are ignored, we design a chunk selection algorithm to dynamically select chunks based on the decreasing speed of the relevance score, leading to a more relevant selection. Third, to further ensure the precision of the retrieved chunks, we propose letting LLMs assess whether retrieved chunks are excessive or lacking and then adjust the amount of context accordingly. Experiments show that SAGE outperforms baselines by 61.25% in the quality of QA on average. Moreover, by avoiding retrieving noisy context, SAGE lowers the cost of the tokens consumed in LLM inference and achieves a 49.41% enhancement in cost efficiency on average. Additionally, our work offers valuable insights for boosting RAG.

Summary

AI-Generated Summary

PDF52March 10, 2025