SAGE: Benchmarking und Verbesserung der Recherche für tiefgehende Forschungsagenten
SAGE: Benchmarking and Improving Retrieval for Deep Research Agents
February 5, 2026
papers.authors: Tiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao
cs.AI
papers.abstract
Tiefgehende Forschungsagenten haben sich als leistungsstarke Systeme zur Bearbeitung komplexer Anfragen etabliert. Gleichzeitig haben LLM-basierte Retriever eine starke Fähigkeit beim Befolgen von Anweisungen oder beim Schlussfolgern demonstriert. Dies wirft eine entscheidende Frage auf: Können LLM-basierte Retriever effektiv zu Workflows tiefgehender Forschungsagenten beitragen? Um dies zu untersuchen, stellen wir SAGE vor, einen Benchmark für die Retrieval wissenschaftlicher Literatur, der 1.200 Anfragen aus vier wissenschaftlichen Domänen und einen Retrieval-Korpus von 200.000 Artikeln umfasst. Wir evaluieren sechs tiefgehende Forschungsagenten und stellen fest, dass alle Systeme mit reasoning-intensivem Retrieval kämpfen. Aufbauend auf DR Tulu als Backbone vergleichen wir weiterhin BM25 und LLM-basierte Retriever (d.h. ReasonIR und gte-Qwen2-7B-instruct) als alternative Suchwerkzeuge. Überraschenderweise übertrifft BM25 die LLM-basierten Retriever um etwa 30 %, da bestehende Agenten keyword-orientierte Teilanfragen generieren. Um die Leistung zu verbessern, schlagen wir ein Corpus-level Test-Time-Scaling-Framework vor, das LLMs nutzt, um Dokumente mit Metadaten und Keywords anzureichern und so das Retrieval für Standard-Retriever zu erleichtern. Dies führt zu Leistungssteigerungen von 8 % bzw. 2 % bei Kurzfragen und offenen Fragen.
English
Deep research agents have emerged as powerful systems for addressing complex queries. Meanwhile, LLM-based retrievers have demonstrated strong capability in following instructions or reasoning. This raises a critical question: can LLM-based retrievers effectively contribute to deep research agent workflows? To investigate this, we introduce SAGE, a benchmark for scientific literature retrieval comprising 1,200 queries across four scientific domains, with a 200,000 paper retrieval corpus.We evaluate six deep research agents and find that all systems struggle with reasoning-intensive retrieval. Using DR Tulu as backbone, we further compare BM25 and LLM-based retrievers (i.e., ReasonIR and gte-Qwen2-7B-instruct) as alternative search tools. Surprisingly, BM25 significantly outperforms LLM-based retrievers by approximately 30%, as existing agents generate keyword-oriented sub-queries. To improve performance, we propose a corpus-level test-time scaling framework that uses LLMs to augment documents with metadata and keywords, making retrieval easier for off-the-shelf retrievers. This yields 8% and 2% gains on short-form and open-ended questions, respectively.