ChatPaper.aiChatPaper

SAGE: Benchmarken en Verbeteren van Retrieval voor Diepgaande Onderzoeksagenten

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

February 5, 2026
Auteurs: Tiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao
cs.AI

Samenvatting

Diepgaande onderzoeksagentschappen zijn opgekomen als krachtige systemen voor het beantwoorden van complexe vragen. Tegelijkertijd hebben op LLM gebaseerde retrievers een sterke capaciteit getoond in het opvolgen van instructies en redeneren. Dit roept een kritische vraag op: kunnen op LLM gebaseerde retrievers effectief bijdragen aan workflows van diepgaande onderzoeksagentschappen? Om dit te onderzoeken, introduceren we SAGE, een benchmark voor wetenschappelijke literatuurretrieval bestaande uit 1.200 vragen verspreid over vier wetenschappelijke domeinen, met een retrievalcorpus van 200.000 artikelen. We evalueren zes diepgaande onderzoeksagentschappen en constateren dat alle systemen moeite hebben met reasoning-intensieve retrieval. Met DR Tulu als backbone vergelijken we verder BM25 en op LLM gebaseerde retrievers (namelijk ReasonIR en gte-Qwen2-7B-instruct) als alternatieve zoektools. Verrassend genoeg presteert BM25 ongeveer 30% beter dan op LLM gebaseerde retrievers, omdat bestaande agentschappen trefwoordgerichte subvragen genereren. Om de prestaties te verbeteren, stellen we een corpusniveau test-time scaling framework voor dat LLM's gebruikt om documenten aan te vullen met metadata en trefwoorden, waardoor retrieval eenvoudiger wordt voor standaard retrievers. Dit levert respectievelijk 8% en 2% winst op voor kort-antwoord en open-einde vragen.
English
Deep research agents have emerged as powerful systems for addressing complex queries. Meanwhile, LLM-based retrievers have demonstrated strong capability in following instructions or reasoning. This raises a critical question: can LLM-based retrievers effectively contribute to deep research agent workflows? To investigate this, we introduce SAGE, a benchmark for scientific literature retrieval comprising 1,200 queries across four scientific domains, with a 200,000 paper retrieval corpus.We evaluate six deep research agents and find that all systems struggle with reasoning-intensive retrieval. Using DR Tulu as backbone, we further compare BM25 and LLM-based retrievers (i.e., ReasonIR and gte-Qwen2-7B-instruct) as alternative search tools. Surprisingly, BM25 significantly outperforms LLM-based retrievers by approximately 30%, as existing agents generate keyword-oriented sub-queries. To improve performance, we propose a corpus-level test-time scaling framework that uses LLMs to augment documents with metadata and keywords, making retrieval easier for off-the-shelf retrievers. This yields 8% and 2% gains on short-form and open-ended questions, respectively.
PDF93February 7, 2026