SAGE: Фреймворк для точного извлечения информации в RAG
SAGE: A Framework of Precise Retrieval for RAG
March 3, 2025
Авторы: Jintao Zhang, Guoliang Li, Jinyang Su
cs.AI
Аннотация
Генерация, усиленная поиском (RAG), продемонстрировала значительную эффективность в выполнении задач вопросно-ответных систем (QA) в рамках заданного корпуса. Тем не менее, существует множество случаев, когда RAG в QA терпит неудачи. Эти неудачи не связаны исключительно с ограничениями крупных языковых моделей (LLM); вместо этого они в основном возникают из-за извлечения неточной информации для LLM, что обусловлено двумя ограничениями: (1) Современные методы RAG сегментируют корпус без учета семантики, что затрудняет поиск релевантного контекста из-за нарушенной корреляции между вопросами и сегментами. (2) Существует компромисс между пропуском важного контекста при извлечении меньшего количества данных и получением нерелевантного контекста при извлечении большего объема данных.
В данной статье мы представляем фреймворк RAG (SAGE), предназначенный для преодоления этих ограничений. Во-первых, для решения проблемы сегментации без учета семантики мы предлагаем обучить модель семантической сегментации. Эта модель обучается для разделения корпуса на семантически завершенные фрагменты. Во-вторых, чтобы гарантировать извлечение только наиболее релевантных фрагментов и игнорирование нерелевантных, мы разрабатываем алгоритм выбора фрагментов, который динамически выбирает их на основе скорости снижения релевантности, что приводит к более точному отбору. В-третьих, для дальнейшего обеспечения точности извлеченных фрагментов мы предлагаем позволить LLM оценивать, являются ли извлеченные фрагменты избыточными или недостаточными, и затем корректировать объем контекста соответствующим образом. Эксперименты показывают, что SAGE превосходит базовые методы на 61,25% по качеству QA в среднем. Более того, избегая извлечения зашумленного контекста, SAGE снижает затраты на токены, используемые в процессе вывода LLM, и достигает улучшения экономической эффективности на 49,41% в среднем. Кроме того, наша работа предлагает ценные идеи для улучшения RAG.
English
Retrieval-augmented generation (RAG) has demonstrated significant proficiency
in conducting question-answering (QA) tasks within a specified corpus.
Nonetheless, numerous failure instances of RAG in QA still exist. These
failures are not solely attributable to the limitations of Large Language
Models (LLMs); instead, they predominantly arise from the retrieval of
inaccurate information for LLMs due to two limitations: (1) Current RAG methods
segment the corpus without considering semantics, making it difficult to find
relevant context due to impaired correlation between questions and the
segments. (2) There is a trade-off between missing essential context with fewer
context retrieved and getting irrelevant context with more context retrieved.
In this paper, we introduce a RAG framework (SAGE), to overcome these
limitations. First, to address the segmentation issue without considering
semantics, we propose to train a semantic segmentation model. This model is
trained to segment the corpus into semantically complete chunks. Second, to
ensure that only the most relevant chunks are retrieved while the irrelevant
ones are ignored, we design a chunk selection algorithm to dynamically select
chunks based on the decreasing speed of the relevance score, leading to a more
relevant selection. Third, to further ensure the precision of the retrieved
chunks, we propose letting LLMs assess whether retrieved chunks are excessive
or lacking and then adjust the amount of context accordingly. Experiments show
that SAGE outperforms baselines by 61.25% in the quality of QA on average.
Moreover, by avoiding retrieving noisy context, SAGE lowers the cost of the
tokens consumed in LLM inference and achieves a 49.41% enhancement in cost
efficiency on average. Additionally, our work offers valuable insights for
boosting RAG.Summary
AI-Generated Summary