ChatPaper.aiChatPaper

BrowseComp-Plus: Un punto de referencia de evaluación más justo y transparente para agentes de investigación profunda

BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent

August 8, 2025
Autores: Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin
cs.AI

Resumen

Los agentes de investigación profunda (Deep-Research), que integran modelos de lenguaje de gran escala (LLMs) con herramientas de búsqueda, han demostrado éxito en mejorar la eficacia para manejar consultas complejas que requieren planificación iterativa de búsqueda y razonamiento sobre los resultados. Las evaluaciones en benchmarks actuales como BrowseComp, que dependen de APIs de búsqueda web en vivo de caja negra, presentan limitaciones significativas en (1) equidad: las APIs web dinámicas y opacas dificultan las comparaciones justas y la reproducibilidad de los métodos de investigación profunda; (2) transparencia: la falta de control sobre el corpus de documentos hace que sea difícil aislar las contribuciones del recuperador. En otras palabras, las evaluaciones actuales pueden comparar un sistema completo de investigación profunda en un momento dado, pero no fomentan experimentos bien controlados para proporcionar información sobre la capacidad de los LLMs subyacentes en investigación profunda. Para abordar estos desafíos, presentamos BrowseComp-Plus, un benchmark derivado de BrowseComp que emplea un corpus fijo y cuidadosamente seleccionado. Cada consulta en BrowseComp-Plus incluye documentos de apoyo verificados por humanos y negativos desafiantes extraídos, lo que permite experimentación controlada. Se ha demostrado que este benchmark es efectivo para distinguir el rendimiento de los sistemas de investigación profunda. Por ejemplo, el modelo de código abierto Search-R1, cuando se combina con el recuperador BM25, alcanza un 3,86% de precisión, mientras que GPT-5 logra un 55,9%. La integración de GPT-5 con el recuperador Qwen3-Embedding-8B mejora aún más su precisión al 70,1% con menos llamadas de búsqueda. Este benchmark permite una evaluación integral y un análisis desglosado de los agentes de investigación profunda y los métodos de recuperación, fomentando insights sobre la efectividad de la recuperación, la precisión de las citas y la ingeniería de contexto en los sistemas de investigación profunda.
English
Deep-Research agents, which integrate large language models (LLMs) with search tools, have shown success in improving the effectiveness of handling complex queries that require iterative search planning and reasoning over search results. Evaluations on current benchmarks like BrowseComp relies on black-box live web search APIs, have notable limitations in (1) fairness: dynamic and opaque web APIs hinder fair comparisons and reproducibility of deep research methods; (2) transparency: lack of control over the document corpus makes it difficult to isolate retriever contributions. In other words, the current evaluations may compare a complete deep research system at a given time, but they do not foster well-controlled experiments to provide insights into the capability of underlying deep research LLMs. To address these challenges, we introduce BrowseComp-Plus, a benchmark derived from BrowseComp, employing a fixed, carefully curated corpus. Each query in BrowseComp-Plus includes human-verified supporting documents and mined challenging negatives, enabling controlled experimentation. The benchmark is shown to be effective in distinguishing the performance of deep research systems. For instance, the open-source model Search-R1, when paired with the BM25 retriever, achieves 3.86% accuracy, whereas the GPT-5 achieves 55.9%. Integrating the GPT-5 with the Qwen3-Embedding-8B retriever further enhances its accuracy to 70.1% with fewer search calls. This benchmark allows comprehensive evaluation and disentangled analysis of deep research agents and retrieval methods, fostering insights into retrieval effectiveness, citation accuracy, and context engineering in Deep-Research system.
PDF352August 12, 2025