SAGE: Evaluación y Mejora de la Recuperación de Información para Agentes de Investigación Profunda
SAGE: Benchmarking and Improving Retrieval for Deep Research Agents
February 5, 2026
Autores: Tiansheng Hu, Yilun Zhao, Canyu Zhang, Arman Cohan, Chen Zhao
cs.AI
Resumen
Los agentes de investigación profunda han surgido como sistemas potentes para abordar consultas complejas. Mientras tanto, los recuperadores basados en LLM han demostrado una gran capacidad para seguir instrucciones o razonar. Esto plantea una pregunta crítica: ¿pueden los recuperadores basados en LLM contribuir eficazmente a los flujos de trabajo de los agentes de investigación profunda? Para investigarlo, presentamos SAGE, un benchmark para la recuperación de literatura científica que comprende 1.200 consultas en cuatro dominios científicos, con un corpus de recuperación de 200.000 artículos. Evaluamos seis agentes de investigación profunda y encontramos que todos los sistemas tienen dificultades con la recuperación intensiva en razonamiento. Utilizando DR Tulu como columna vertebral, comparamos además los recuperadores BM25 y los basados en LLM (es decir, ReasonIR y gte-Qwen2-7B-instruct) como herramientas de búsqueda alternativas. Sorprendentemente, BM25 supera significativamente a los recuperadores basados en LLM en aproximadamente un 30%, ya que los agentes existentes generan subconsultas orientadas a palabras clave. Para mejorar el rendimiento, proponemos un marco de escalado en tiempo de prueba a nivel de corpus que utiliza LLMs para enriquecer documentos con metadatos y palabras clave, facilitando la recuperación para los recuperadores estándar. Esto produce ganancias del 8% y el 2% en preguntas de respuesta corta y de respuesta abierta, respectivamente.
English
Deep research agents have emerged as powerful systems for addressing complex queries. Meanwhile, LLM-based retrievers have demonstrated strong capability in following instructions or reasoning. This raises a critical question: can LLM-based retrievers effectively contribute to deep research agent workflows? To investigate this, we introduce SAGE, a benchmark for scientific literature retrieval comprising 1,200 queries across four scientific domains, with a 200,000 paper retrieval corpus.We evaluate six deep research agents and find that all systems struggle with reasoning-intensive retrieval. Using DR Tulu as backbone, we further compare BM25 and LLM-based retrievers (i.e., ReasonIR and gte-Qwen2-7B-instruct) as alternative search tools. Surprisingly, BM25 significantly outperforms LLM-based retrievers by approximately 30%, as existing agents generate keyword-oriented sub-queries. To improve performance, we propose a corpus-level test-time scaling framework that uses LLMs to augment documents with metadata and keywords, making retrieval easier for off-the-shelf retrievers. This yields 8% and 2% gains on short-form and open-ended questions, respectively.