SAGE: Un Marco de Recuperación Preciso para RAG

Resumen

La generación aumentada por recuperación (RAG, por sus siglas en inglés) ha demostrado una capacidad significativa para realizar tareas de pregunta-respuesta (QA) dentro de un corpus específico. Sin embargo, aún existen numerosos casos de fallos de RAG en QA. Estos fallos no se deben únicamente a las limitaciones de los Modelos de Lenguaje de Gran Escala (LLMs); en cambio, surgen principalmente de la recuperación de información inexacta para los LLMs debido a dos limitaciones: (1) Los métodos actuales de RAG segmentan el corpus sin considerar la semántica, lo que dificulta encontrar contexto relevante debido a la correlación deteriorada entre las preguntas y los segmentos. (2) Existe un equilibrio entre omitir contexto esencial al recuperar menos contexto y obtener contexto irrelevante al recuperar más contexto. En este artículo, presentamos un marco de RAG (SAGE) para superar estas limitaciones. Primero, para abordar el problema de segmentación sin considerar la semántica, proponemos entrenar un modelo de segmentación semántica. Este modelo se entrena para segmentar el corpus en fragmentos semánticamente completos. Segundo, para asegurar que solo se recuperen los fragmentos más relevantes mientras se ignoran los irrelevantes, diseñamos un algoritmo de selección de fragmentos que selecciona dinámicamente los fragmentos basándose en la velocidad de disminución de la puntuación de relevancia, lo que lleva a una selección más pertinente. Tercero, para garantizar aún más la precisión de los fragmentos recuperados, proponemos que los LLMs evalúen si los fragmentos recuperados son excesivos o insuficientes y luego ajusten la cantidad de contexto en consecuencia. Los experimentos muestran que SAGE supera a los métodos de referencia en un 61.25% en la calidad de QA en promedio. Además, al evitar recuperar contexto ruidoso, SAGE reduce el costo de los tokens consumidos en la inferencia de los LLMs y logra una mejora del 49.41% en la eficiencia de costos en promedio. Adicionalmente, nuestro trabajo ofrece perspectivas valiosas para mejorar RAG.

English

Retrieval-augmented generation (RAG) has demonstrated significant proficiency in conducting question-answering (QA) tasks within a specified corpus. Nonetheless, numerous failure instances of RAG in QA still exist. These failures are not solely attributable to the limitations of Large Language Models (LLMs); instead, they predominantly arise from the retrieval of inaccurate information for LLMs due to two limitations: (1) Current RAG methods segment the corpus without considering semantics, making it difficult to find relevant context due to impaired correlation between questions and the segments. (2) There is a trade-off between missing essential context with fewer context retrieved and getting irrelevant context with more context retrieved. In this paper, we introduce a RAG framework (SAGE), to overcome these limitations. First, to address the segmentation issue without considering semantics, we propose to train a semantic segmentation model. This model is trained to segment the corpus into semantically complete chunks. Second, to ensure that only the most relevant chunks are retrieved while the irrelevant ones are ignored, we design a chunk selection algorithm to dynamically select chunks based on the decreasing speed of the relevance score, leading to a more relevant selection. Third, to further ensure the precision of the retrieved chunks, we propose letting LLMs assess whether retrieved chunks are excessive or lacking and then adjust the amount of context accordingly. Experiments show that SAGE outperforms baselines by 61.25% in the quality of QA on average. Moreover, by avoiding retrieving noisy context, SAGE lowers the cost of the tokens consumed in LLM inference and achieves a 49.41% enhancement in cost efficiency on average. Additionally, our work offers valuable insights for boosting RAG.

SAGE: Un Marco de Recuperación Preciso para RAG

SAGE: A Framework of Precise Retrieval for RAG

Resumen

Support