BrowseComp-Plus: Un punto de referencia de evaluación más justo y transparente para agentes de investigación profunda
BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent
August 8, 2025
Autores: Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin
cs.AI
Resumen
Los agentes de investigación profunda (Deep-Research), que integran modelos de lenguaje de gran escala (LLMs) con herramientas de búsqueda, han demostrado éxito en mejorar la eficacia para manejar consultas complejas que requieren planificación iterativa de búsqueda y razonamiento sobre los resultados. Las evaluaciones en benchmarks actuales como BrowseComp, que dependen de APIs de búsqueda web en vivo de caja negra, presentan limitaciones significativas en (1) equidad: las APIs web dinámicas y opacas dificultan las comparaciones justas y la reproducibilidad de los métodos de investigación profunda; (2) transparencia: la falta de control sobre el corpus de documentos hace que sea difícil aislar las contribuciones del recuperador. En otras palabras, las evaluaciones actuales pueden comparar un sistema completo de investigación profunda en un momento dado, pero no fomentan experimentos bien controlados para proporcionar información sobre la capacidad de los LLMs subyacentes en investigación profunda. Para abordar estos desafíos, presentamos BrowseComp-Plus, un benchmark derivado de BrowseComp que emplea un corpus fijo y cuidadosamente seleccionado. Cada consulta en BrowseComp-Plus incluye documentos de apoyo verificados por humanos y negativos desafiantes extraídos, lo que permite experimentación controlada. Se ha demostrado que este benchmark es efectivo para distinguir el rendimiento de los sistemas de investigación profunda. Por ejemplo, el modelo de código abierto Search-R1, cuando se combina con el recuperador BM25, alcanza un 3,86% de precisión, mientras que GPT-5 logra un 55,9%. La integración de GPT-5 con el recuperador Qwen3-Embedding-8B mejora aún más su precisión al 70,1% con menos llamadas de búsqueda. Este benchmark permite una evaluación integral y un análisis desglosado de los agentes de investigación profunda y los métodos de recuperación, fomentando insights sobre la efectividad de la recuperación, la precisión de las citas y la ingeniería de contexto en los sistemas de investigación profunda.
English
Deep-Research agents, which integrate large language models (LLMs) with
search tools, have shown success in improving the effectiveness of handling
complex queries that require iterative search planning and reasoning over
search results. Evaluations on current benchmarks like BrowseComp relies on
black-box live web search APIs, have notable limitations in (1) fairness:
dynamic and opaque web APIs hinder fair comparisons and reproducibility of deep
research methods; (2) transparency: lack of control over the document corpus
makes it difficult to isolate retriever contributions. In other words, the
current evaluations may compare a complete deep research system at a given
time, but they do not foster well-controlled experiments to provide insights
into the capability of underlying deep research LLMs. To address these
challenges, we introduce BrowseComp-Plus, a benchmark derived from BrowseComp,
employing a fixed, carefully curated corpus. Each query in BrowseComp-Plus
includes human-verified supporting documents and mined challenging negatives,
enabling controlled experimentation. The benchmark is shown to be effective in
distinguishing the performance of deep research systems. For instance, the
open-source model Search-R1, when paired with the BM25 retriever, achieves
3.86% accuracy, whereas the GPT-5 achieves 55.9%. Integrating the GPT-5 with
the Qwen3-Embedding-8B retriever further enhances its accuracy to 70.1% with
fewer search calls. This benchmark allows comprehensive evaluation and
disentangled analysis of deep research agents and retrieval methods, fostering
insights into retrieval effectiveness, citation accuracy, and context
engineering in Deep-Research system.