BrowseComp-Plus: Um Benchmark de Avaliação Mais Justo e Transparente para Agentes de Pesquisa Profunda
BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent
August 8, 2025
Autores: Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin
cs.AI
Resumo
Agentes de Deep-Research, que integram modelos de linguagem de grande escala (LLMs) com ferramentas de busca, têm demonstrado sucesso em melhorar a eficácia no tratamento de consultas complexas que exigem planejamento iterativo de busca e raciocínio sobre os resultados da pesquisa. As avaliações em benchmarks atuais, como o BrowseComp, que dependem de APIs de busca na web em tempo real e de caixa preta, apresentam limitações significativas em (1) justiça: APIs web dinâmicas e opacas dificultam comparações justas e a reprodutibilidade dos métodos de deep research; (2) transparência: a falta de controle sobre o corpus de documentos torna difícil isolar as contribuições do recuperador. Em outras palavras, as avaliações atuais podem comparar um sistema completo de deep research em um determinado momento, mas não promovem experimentos bem controlados para fornecer insights sobre a capacidade dos LLMs subjacentes de deep research. Para enfrentar esses desafios, introduzimos o BrowseComp-Plus, um benchmark derivado do BrowseComp, que emprega um corpus fixo e cuidadosamente curado. Cada consulta no BrowseComp-Plus inclui documentos de suporte verificados por humanos e negativos desafiadores extraídos, permitindo experimentação controlada. O benchmark mostrou-se eficaz em distinguir o desempenho de sistemas de deep research. Por exemplo, o modelo de código aberto Search-R1, quando emparelhado com o recuperador BM25, alcança 3,86% de precisão, enquanto o GPT-5 alcança 55,9%. A integração do GPT-5 com o recuperador Qwen3-Embedding-8B aumenta ainda mais sua precisão para 70,1% com menos chamadas de busca. Este benchmark permite uma avaliação abrangente e uma análise desagregada de agentes de deep research e métodos de recuperação, promovendo insights sobre a eficácia da recuperação, precisão de citações e engenharia de contexto em sistemas de Deep-Research.
English
Deep-Research agents, which integrate large language models (LLMs) with
search tools, have shown success in improving the effectiveness of handling
complex queries that require iterative search planning and reasoning over
search results. Evaluations on current benchmarks like BrowseComp relies on
black-box live web search APIs, have notable limitations in (1) fairness:
dynamic and opaque web APIs hinder fair comparisons and reproducibility of deep
research methods; (2) transparency: lack of control over the document corpus
makes it difficult to isolate retriever contributions. In other words, the
current evaluations may compare a complete deep research system at a given
time, but they do not foster well-controlled experiments to provide insights
into the capability of underlying deep research LLMs. To address these
challenges, we introduce BrowseComp-Plus, a benchmark derived from BrowseComp,
employing a fixed, carefully curated corpus. Each query in BrowseComp-Plus
includes human-verified supporting documents and mined challenging negatives,
enabling controlled experimentation. The benchmark is shown to be effective in
distinguishing the performance of deep research systems. For instance, the
open-source model Search-R1, when paired with the BM25 retriever, achieves
3.86% accuracy, whereas the GPT-5 achieves 55.9%. Integrating the GPT-5 with
the Qwen3-Embedding-8B retriever further enhances its accuracy to 70.1% with
fewer search calls. This benchmark allows comprehensive evaluation and
disentangled analysis of deep research agents and retrieval methods, fostering
insights into retrieval effectiveness, citation accuracy, and context
engineering in Deep-Research system.