効率的かつ高精度なエージェント型RAGのためのテスト時戦略
Test-Time Strategies for More Efficient and Accurate Agentic RAG
March 12, 2026
著者: Brian Zhang, Deepti Guntur, Zhiyang Zuo, Abhinav Sharma, Shreyas Chaudhari, Wenlong Zhao, Franck Dernoncourt, Puneet Mathur, Ryan Rossi, Nedim Lipka
cs.AI
要旨
Retrieval-Augmented Generation (RAG) システムは、複雑なマルチホップ質問に対する課題に直面している。こうした複雑性に対処するため、反復的に動作する Search-R1 (Jin et al., 2025) などのエージェント型フレームワークが提案されている。しかし、このようなアプローチには、過去に処理された情報の繰り返し検索や、検索結果を現在の生成プロンプトに効果的に文脈化する課題など、非効率性が生じる可能性がある。こうした問題は、不必要な検索ターンの発生、最適でない推論、不正確な回答、およびトークン消費量の増加につながりうる。
本論文では、Search-R1 パイプラインに対し、これらの課題を軽減するためのテスト時修正を検討する。具体的には、検索された文書から得られた関連情報を推論により統合する文脈化モジュールと、過去に検索された文書を次点の関連文書で置き換える重複排除モジュール、これら2つのコンポーネントの統合とその組み合わせについて探求する。我々のアプローチを、HotpotQA (Yang et al., 2018) および Natural Questions (Kwiatkowski et al., 2019) データセットを用いて評価し、完全一致(EM)スコア、回答正解性に対するLLM-as-a-Judge評価、平均ターン数を報告する。
文脈化に GPT-4.1-mini を利用した我々の最高性能バリアントは、Search-R1 ベースラインと比較して、EMスコアを5.6%向上させ、ターン数を10.5%削減し、回答精度と検索効率の改善を示した。
English
Retrieval-Augmented Generation (RAG) systems face challenges with complex, multihop questions, and agentic frameworks such as Search-R1 (Jin et al., 2025), which operates iteratively, have been proposed to address these complexities. However, such approaches can introduce inefficiencies, including repetitive retrieval of previously processed information and challenges in contextualizing retrieved results effectively within the current generation prompt. Such issues can lead to unnecessary retrieval turns, suboptimal reasoning, inaccurate answers, and increased token consumption.
In this paper, we investigate test-time modifications to the Search-R1 pipeline to mitigate these identified shortcomings. Specifically, we explore the integration of two components and their combination: a contextualization module to better integrate relevant information from retrieved documents into reasoning, and a de-duplication module that replaces previously retrieved documents with the next most relevant ones. We evaluate our approaches using the HotpotQA (Yang et al., 2018) and the Natural Questions (Kwiatkowski et al., 2019) datasets, reporting the exact match (EM) score, an LLM-as-a-Judge assessment of answer correctness, and the average number of turns.
Our best-performing variant, utilizing GPT-4.1-mini for contextualization, achieves a 5.6% increase in EM score and reduces the number of turns by 10.5% compared to the Search-R1 baseline, demonstrating improved answer accuracy and retrieval efficiency.