ChatPaper.aiChatPaper

SAGE: Avaliação e Melhoria da Recuperação de Informação para Agentes de Pesquisa Profunda

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

February 5, 2026
Autores: Tiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao
cs.AI

Resumo

Os agentes de pesquisa aprofundada emergiram como sistemas poderosos para abordar consultas complexas. Paralelamente, os recuperadores baseados em LLM demonstraram forte capacidade em seguir instruções ou realizar raciocínios. Isso levanta uma questão crítica: os recuperadores baseados em LLM podem contribuir efetivamente para os fluxos de trabalho de agentes de pesquisa aprofundada? Para investigar isso, introduzimos o SAGE, um benchmark para recuperação de literatura científica composto por 1.200 consultas em quatro domínios científicos, com um corpus de recuperação de 200.000 artigos. Avaliamos seis agentes de pesquisa aprofundada e constatamos que todos os sistemas lutam com a recuperação intensiva em raciocínio. Usando o DR Tulu como base, comparamos ainda os recuperadores BM25 e baseados em LLM (ou seja, ReasonIR e gte-Qwen2-7B-instruct) como ferramentas de pesquisa alternativas. Surpreendentemente, o BM25 supera significativamente os recuperadores baseados em LLM em aproximadamente 30%, uma vez que os agentes existentes geram subconsultas orientadas a palavras-chave. Para melhorar o desempenho, propomos uma estrutura de escalonamento em tempo de teste a nível de *corpus* que utiliza LLMs para enriquecer documentos com metadados e palavras-chave, facilitando a recuperação para recuperadores padrão. Isso resulta em ganhos de 8% e 2% em questões de resposta curta e abertas, respectivamente.
English
Deep research agents have emerged as powerful systems for addressing complex queries. Meanwhile, LLM-based retrievers have demonstrated strong capability in following instructions or reasoning. This raises a critical question: can LLM-based retrievers effectively contribute to deep research agent workflows? To investigate this, we introduce SAGE, a benchmark for scientific literature retrieval comprising 1,200 queries across four scientific domains, with a 200,000 paper retrieval corpus.We evaluate six deep research agents and find that all systems struggle with reasoning-intensive retrieval. Using DR Tulu as backbone, we further compare BM25 and LLM-based retrievers (i.e., ReasonIR and gte-Qwen2-7B-instruct) as alternative search tools. Surprisingly, BM25 significantly outperforms LLM-based retrievers by approximately 30%, as existing agents generate keyword-oriented sub-queries. To improve performance, we propose a corpus-level test-time scaling framework that uses LLMs to augment documents with metadata and keywords, making retrieval easier for off-the-shelf retrievers. This yields 8% and 2% gains on short-form and open-ended questions, respectively.
PDF93February 7, 2026