SAGE : Évaluation et amélioration de la recherche documentaire pour agents d’intelligence artificielle en contexte de recherche approfondie
SAGE: Benchmarking and Improving Retrieval for Deep Research Agents
February 5, 2026
papers.authors: Tiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao
cs.AI
papers.abstract
Les agents de recherche approfondie sont apparus comme des systèmes puissants pour traiter des requêtes complexes. Parallèlement, les systèmes de recherche basés sur les LLM ont démontré une forte capacité à suivre des instructions ou à raisonner. Cela soulève une question cruciale : les systèmes de recherche basés sur les LLM peuvent-ils contribuer efficacement aux workflows des agents de recherche approfondie ? Pour étudier cela, nous présentons SAGE, un benchmark de recherche de littérature scientifique comprenant 1 200 requêtes couvrant quatre domaines scientifiques, avec un corpus de recherche de 200 000 articles. Nous évaluons six agents de recherche approfondie et constatons que tous les systèmes peinent avec la recherche nécessitant un raisonnement intensif. En utilisant DR Tulu comme architecture de base, nous comparons ensuite les systèmes de recherche BM25 et basés sur les LLM (à savoir ReasonIR et gte-Qwen2-7B-instruct) comme outils de recherche alternatifs. De manière surprenante, BM25 surpasse significativement les systèmes basés sur les LLM d'environ 30 %, car les agents existants génèrent des sous-requêtes orientées mots-clés. Pour améliorer les performances, nous proposons un cadre d'adaptation à l'échelle du corpus au moment du test qui utilise les LLM pour enrichir les documents avec des métadonnées et des mots-clés, facilitant ainsi la recherche pour les systèmes standards. Cela permet d'obtenir des gains de 8 % et 2 % respectivement sur les questions à réponse courte et les questions ouvertes.
English
Deep research agents have emerged as powerful systems for addressing complex queries. Meanwhile, LLM-based retrievers have demonstrated strong capability in following instructions or reasoning. This raises a critical question: can LLM-based retrievers effectively contribute to deep research agent workflows? To investigate this, we introduce SAGE, a benchmark for scientific literature retrieval comprising 1,200 queries across four scientific domains, with a 200,000 paper retrieval corpus.We evaluate six deep research agents and find that all systems struggle with reasoning-intensive retrieval. Using DR Tulu as backbone, we further compare BM25 and LLM-based retrievers (i.e., ReasonIR and gte-Qwen2-7B-instruct) as alternative search tools. Surprisingly, BM25 significantly outperforms LLM-based retrievers by approximately 30%, as existing agents generate keyword-oriented sub-queries. To improve performance, we propose a corpus-level test-time scaling framework that uses LLMs to augment documents with metadata and keywords, making retrieval easier for off-the-shelf retrievers. This yields 8% and 2% gains on short-form and open-ended questions, respectively.