SAGE: 研究支援エージェントの検索機能のベンチマーキングと改善
SAGE: Benchmarking and Improving Retrieval for Deep Research Agents
February 5, 2026
著者: Tiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao
cs.AI
要旨
深層研究エージェントは、複雑な問い合わせに対処する強力なシステムとして登場している。一方、LLMベースの検索システムは、指示追従や推論において優れた能力を示している。これにより、LLMベースの検索システムが深層研究エージェントのワークフローに効果的に寄与し得るかどうかという重要な疑問が生じる。これを検討するため、我々は科学文献検索のベンチマークであるSAGEを導入する。SAGEは4つの科学分野にわたる1,200のクエリと、20万編の論文からなる検索コーパスで構成される。6種類の深層研究エージェントを評価した結果、全てのシステムが推論集約的な検索に苦戦することがわかった。DR Tuluを基盤として、BM25とLLMベース検索システム(ReasonIRおよびgte-Qwen2-7B-instruct)を代替検索ツールとして比較した。驚くべきことに、既存のエージェントがキーワード指向のサブクエリを生成するため、BM25はLLMベース検索システムを約30%大幅に上回った。性能向上のため、我々はLLMを用いてメタデータとキーワードで文書を拡張し、既存の検索システムにとって検索を容易にする、コーパスレベルのテスト時スケーリングフレームワークを提案する。これにより、短答式問題と自由記述問題において、それぞれ8%および2%の性能向上が得られた。
English
Deep research agents have emerged as powerful systems for addressing complex queries. Meanwhile, LLM-based retrievers have demonstrated strong capability in following instructions or reasoning. This raises a critical question: can LLM-based retrievers effectively contribute to deep research agent workflows? To investigate this, we introduce SAGE, a benchmark for scientific literature retrieval comprising 1,200 queries across four scientific domains, with a 200,000 paper retrieval corpus.We evaluate six deep research agents and find that all systems struggle with reasoning-intensive retrieval. Using DR Tulu as backbone, we further compare BM25 and LLM-based retrievers (i.e., ReasonIR and gte-Qwen2-7B-instruct) as alternative search tools. Surprisingly, BM25 significantly outperforms LLM-based retrievers by approximately 30%, as existing agents generate keyword-oriented sub-queries. To improve performance, we propose a corpus-level test-time scaling framework that uses LLMs to augment documents with metadata and keywords, making retrieval easier for off-the-shelf retrievers. This yields 8% and 2% gains on short-form and open-ended questions, respectively.