SAGE: Фреймворк для точного извлечения информации в RAG

Аннотация

Генерация, усиленная поиском (RAG), продемонстрировала значительную эффективность в выполнении задач вопросно-ответных систем (QA) в рамках заданного корпуса. Тем не менее, существует множество случаев, когда RAG в QA терпит неудачи. Эти неудачи не связаны исключительно с ограничениями крупных языковых моделей (LLM); вместо этого они в основном возникают из-за извлечения неточной информации для LLM, что обусловлено двумя ограничениями: (1) Современные методы RAG сегментируют корпус без учета семантики, что затрудняет поиск релевантного контекста из-за нарушенной корреляции между вопросами и сегментами. (2) Существует компромисс между пропуском важного контекста при извлечении меньшего количества данных и получением нерелевантного контекста при извлечении большего объема данных. В данной статье мы представляем фреймворк RAG (SAGE), предназначенный для преодоления этих ограничений. Во-первых, для решения проблемы сегментации без учета семантики мы предлагаем обучить модель семантической сегментации. Эта модель обучается для разделения корпуса на семантически завершенные фрагменты. Во-вторых, чтобы гарантировать извлечение только наиболее релевантных фрагментов и игнорирование нерелевантных, мы разрабатываем алгоритм выбора фрагментов, который динамически выбирает их на основе скорости снижения релевантности, что приводит к более точному отбору. В-третьих, для дальнейшего обеспечения точности извлеченных фрагментов мы предлагаем позволить LLM оценивать, являются ли извлеченные фрагменты избыточными или недостаточными, и затем корректировать объем контекста соответствующим образом. Эксперименты показывают, что SAGE превосходит базовые методы на 61,25% по качеству QA в среднем. Более того, избегая извлечения зашумленного контекста, SAGE снижает затраты на токены, используемые в процессе вывода LLM, и достигает улучшения экономической эффективности на 49,41% в среднем. Кроме того, наша работа предлагает ценные идеи для улучшения RAG.

English

Retrieval-augmented generation (RAG) has demonstrated significant proficiency in conducting question-answering (QA) tasks within a specified corpus. Nonetheless, numerous failure instances of RAG in QA still exist. These failures are not solely attributable to the limitations of Large Language Models (LLMs); instead, they predominantly arise from the retrieval of inaccurate information for LLMs due to two limitations: (1) Current RAG methods segment the corpus without considering semantics, making it difficult to find relevant context due to impaired correlation between questions and the segments. (2) There is a trade-off between missing essential context with fewer context retrieved and getting irrelevant context with more context retrieved. In this paper, we introduce a RAG framework (SAGE), to overcome these limitations. First, to address the segmentation issue without considering semantics, we propose to train a semantic segmentation model. This model is trained to segment the corpus into semantically complete chunks. Second, to ensure that only the most relevant chunks are retrieved while the irrelevant ones are ignored, we design a chunk selection algorithm to dynamically select chunks based on the decreasing speed of the relevance score, leading to a more relevant selection. Third, to further ensure the precision of the retrieved chunks, we propose letting LLMs assess whether retrieved chunks are excessive or lacking and then adjust the amount of context accordingly. Experiments show that SAGE outperforms baselines by 61.25% in the quality of QA on average. Moreover, by avoiding retrieving noisy context, SAGE lowers the cost of the tokens consumed in LLM inference and achieves a 49.41% enhancement in cost efficiency on average. Additionally, our work offers valuable insights for boosting RAG.

SAGE: Фреймворк для точного извлечения информации в RAG

SAGE: A Framework of Precise Retrieval for RAG

Аннотация

Support