ChatPaper.aiChatPaper

SAGE: 심층 연구 에이전트의 정보 검색 성능 평가 및 개선

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

February 5, 2026
저자: Tiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao
cs.AI

초록

딥 리서치 에이전트는 복잡한 질의를 해결하기 위한 강력한 시스템으로 부상했습니다. 한편, LLM 기반 검색기는 지시 따르기 또는 추론에서 강력한 능력을 입증했습니다. 이는 중요한 질문을 제기합니다: LLM 기반 검색기가 딥 리서치 에이전트 워크플로우에 효과적으로 기여할 수 있을까요? 이를 조사하기 위해 우리는 4개의 과학 분야에 걸친 1,200개의 질의와 200,000편의 논문 검색 코퍼스로 구성된 과학 문헌 검색 벤치마크인 SAGE를 소개합니다. 우리는 6가지 딥 리서치 에이전트를 평가했으며, 모든 시스템이 추론 집약적 검색에 어려움을 겪는 것을 발견했습니다. DR Tulu를 백본으로 사용하여 BM25와 LLM 기반 검색기(즉, ReasonIR 및 gte-Qwen2-7B-instruct)를 대체 검색 도구로 추가 비교했습니다. 놀랍게도 BM25는 LLM 기반 검색기를 약 30%나 크게 앞질렀는데, 이는 기존 에이전트들이 키워드 중심의 하위 질의를 생성하기 때문입니다. 성능을 개선하기 위해 우리는 LLM을 사용하여 문서에 메타데이터와 키워드를 추가하여 기성 검색기가 검색을 더 쉽게 수행할 수 있도록 하는 코퍼스 수준의 테스트 타임 스케일링 프레임워크를 제안합니다. 이를 통해 단답형 질문과 개방형 질문에서 각각 8%와 2%의 성능 향상을 얻었습니다.
English
Deep research agents have emerged as powerful systems for addressing complex queries. Meanwhile, LLM-based retrievers have demonstrated strong capability in following instructions or reasoning. This raises a critical question: can LLM-based retrievers effectively contribute to deep research agent workflows? To investigate this, we introduce SAGE, a benchmark for scientific literature retrieval comprising 1,200 queries across four scientific domains, with a 200,000 paper retrieval corpus.We evaluate six deep research agents and find that all systems struggle with reasoning-intensive retrieval. Using DR Tulu as backbone, we further compare BM25 and LLM-based retrievers (i.e., ReasonIR and gte-Qwen2-7B-instruct) as alternative search tools. Surprisingly, BM25 significantly outperforms LLM-based retrievers by approximately 30%, as existing agents generate keyword-oriented sub-queries. To improve performance, we propose a corpus-level test-time scaling framework that uses LLMs to augment documents with metadata and keywords, making retrieval easier for off-the-shelf retrievers. This yields 8% and 2% gains on short-form and open-ended questions, respectively.
PDF92February 7, 2026