BrowseComp-Plus: Un Benchmark di Valutazione Più Equo e Trasparente per Agenti di Ricerca Approfondita
BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent
August 8, 2025
Autori: Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin
cs.AI
Abstract
Gli agenti Deep-Research, che integrano modelli linguistici di grandi dimensioni (LLM) con strumenti di ricerca, hanno dimostrato successo nel migliorare l'efficacia nella gestione di query complesse che richiedono pianificazione iterativa della ricerca e ragionamento sui risultati di ricerca. Le valutazioni sugli attuali benchmark come BrowseComp, che si basano su API di ricerca web live a scatola chiusa, presentano limitazioni significative in termini di (1) equità: le API web dinamiche e opache ostacolano confronti equi e la riproducibilità dei metodi di deep research; (2) trasparenza: la mancanza di controllo sul corpus di documenti rende difficile isolare i contributi del sistema di recupero. In altre parole, le valutazioni attuali possono confrontare un sistema completo di deep research in un dato momento, ma non favoriscono esperimenti ben controllati per fornire approfondimenti sulle capacità dei LLM sottostanti. Per affrontare queste sfide, introduciamo BrowseComp-Plus, un benchmark derivato da BrowseComp, che utilizza un corpus fisso e accuratamente curato. Ogni query in BrowseComp-Plus include documenti di supporto verificati da esseri umani e negativi difficili estratti, consentendo esperimenti controllati. Il benchmark si è dimostrato efficace nel distinguere le prestazioni dei sistemi di deep research. Ad esempio, il modello open-source Search-R1, abbinato al retriever BM25, raggiunge un'accuratezza del 3,86%, mentre il GPT-5 raggiunge il 55,9%. L'integrazione del GPT-5 con il retriever Qwen3-Embedding-8B migliora ulteriormente la sua accuratezza al 70,1% con meno chiamate di ricerca. Questo benchmark consente una valutazione completa e un'analisi distinta degli agenti di deep research e dei metodi di recupero, favorendo approfondimenti sull'efficacia del recupero, l'accuratezza delle citazioni e l'ingegneria del contesto nei sistemi Deep-Research.
English
Deep-Research agents, which integrate large language models (LLMs) with
search tools, have shown success in improving the effectiveness of handling
complex queries that require iterative search planning and reasoning over
search results. Evaluations on current benchmarks like BrowseComp relies on
black-box live web search APIs, have notable limitations in (1) fairness:
dynamic and opaque web APIs hinder fair comparisons and reproducibility of deep
research methods; (2) transparency: lack of control over the document corpus
makes it difficult to isolate retriever contributions. In other words, the
current evaluations may compare a complete deep research system at a given
time, but they do not foster well-controlled experiments to provide insights
into the capability of underlying deep research LLMs. To address these
challenges, we introduce BrowseComp-Plus, a benchmark derived from BrowseComp,
employing a fixed, carefully curated corpus. Each query in BrowseComp-Plus
includes human-verified supporting documents and mined challenging negatives,
enabling controlled experimentation. The benchmark is shown to be effective in
distinguishing the performance of deep research systems. For instance, the
open-source model Search-R1, when paired with the BM25 retriever, achieves
3.86% accuracy, whereas the GPT-5 achieves 55.9%. Integrating the GPT-5 with
the Qwen3-Embedding-8B retriever further enhances its accuracy to 70.1% with
fewer search calls. This benchmark allows comprehensive evaluation and
disentangled analysis of deep research agents and retrieval methods, fostering
insights into retrieval effectiveness, citation accuracy, and context
engineering in Deep-Research system.