Стратегии во время тестирования для повышения эффективности и точности агентного RAG

Аннотация

Системы с расширением генерации за счет поиска (RAG) сталкиваются с трудностями при обработке сложных многошаговых вопросов, и для решения этих сложностей были предложены агентские фреймворки, такие как Search-R1 (Jin et al., 2025), работающие итеративно. Однако такие подходы могут приводить к неэффективности, включая повторное извлечение ранее обработанной информации и трудности с эффективной контекстуализацией полученных результатов в рамках текущего промпта генерации. Эти проблемы могут вызывать избыточные циклы поиска, неоптимальные рассуждения, неточные ответы и повышенное потребление токенов. В данной статье мы исследуем модификации конвейера Search-R1 на этапе тестирования для смягчения выявленных недостатков. В частности, мы изучаем интеграцию двух компонентов и их комбинацию: модуля контекстуализации для лучшего включения релевантной информации из найденных документов в процесс рассуждения и модуля дедупликации, который заменяет ранее извлеченные документы следующими по релевантности. Мы оцениваем наши подходы на наборах данных HotpotQA (Yang et al., 2018) и Natural Questions (Kwiatkowski et al., 2019), сообщая показатель точного совпадения (EM), оценку корректности ответов с помощью LLM-as-a-Judge и среднее количество циклов. Наша наиболее эффективная модификация, использующая GPT-4.1-mini для контекстуализации, демонстрирует увеличение показателя EM на 5,6% и сокращение количества циклов на 10,5% по сравнению с базовым уровнем Search-R1, что свидетельствует о повышении точности ответов и эффективности поиска.

English

Retrieval-Augmented Generation (RAG) systems face challenges with complex, multihop questions, and agentic frameworks such as Search-R1 (Jin et al., 2025), which operates iteratively, have been proposed to address these complexities. However, such approaches can introduce inefficiencies, including repetitive retrieval of previously processed information and challenges in contextualizing retrieved results effectively within the current generation prompt. Such issues can lead to unnecessary retrieval turns, suboptimal reasoning, inaccurate answers, and increased token consumption. In this paper, we investigate test-time modifications to the Search-R1 pipeline to mitigate these identified shortcomings. Specifically, we explore the integration of two components and their combination: a contextualization module to better integrate relevant information from retrieved documents into reasoning, and a de-duplication module that replaces previously retrieved documents with the next most relevant ones. We evaluate our approaches using the HotpotQA (Yang et al., 2018) and the Natural Questions (Kwiatkowski et al., 2019) datasets, reporting the exact match (EM) score, an LLM-as-a-Judge assessment of answer correctness, and the average number of turns. Our best-performing variant, utilizing GPT-4.1-mini for contextualization, achieves a 5.6% increase in EM score and reduces the number of turns by 10.5% compared to the Search-R1 baseline, demonstrating improved answer accuracy and retrieval efficiency.

Стратегии во время тестирования для повышения эффективности и точности агентного RAG

Test-Time Strategies for More Efficient and Accurate Agentic RAG

Аннотация

Support