BrowseComp-Plus: Ein faireres und transparenteres Evaluations-Benchmark für Deep-Research-Agenten
BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent
August 8, 2025
papers.authors: Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin
cs.AI
papers.abstract
Deep-Research-Agenten, die große Sprachmodelle (LLMs) mit Suchwerkzeugen kombinieren, haben sich als erfolgreich erwiesen, um die Effektivität bei der Bearbeitung komplexer Anfragen zu steigern, die iterative Suchplanung und Schlussfolgerungen über Suchergebnisse erfordern. Evaluierungen auf aktuellen Benchmarks wie BrowseComp, die auf Blackbox-Live-Web-Such-APIs basieren, weisen jedoch erhebliche Einschränkungen auf: (1) Fairness: Dynamische und undurchsichtige Web-APIs behindern faire Vergleiche und die Reproduzierbarkeit von Deep-Research-Methoden; (2) Transparenz: Der Mangel an Kontrolle über das Dokumentenkorpus erschwert die Isolierung der Beiträge des Retrievers. Mit anderen Worten: Die aktuellen Evaluierungen vergleichen zwar ein vollständiges Deep-Research-System zu einem bestimmten Zeitpunkt, ermöglichen jedoch keine gut kontrollierten Experimente, um Einblicke in die Fähigkeiten der zugrunde liegenden Deep-Research-LLMs zu gewähren. Um diese Herausforderungen zu bewältigen, führen wir BrowseComp-Plus ein, einen Benchmark, der auf BrowseComp basiert und ein festes, sorgfältig kuratiertes Korpus verwendet. Jede Anfrage in BrowseComp-Plus enthält von Menschen verifizierte unterstützende Dokumente und herausfordernde, extrahierte Negative, was kontrollierte Experimente ermöglicht. Der Benchmark hat sich als effektiv erwiesen, um die Leistung von Deep-Research-Systemen zu unterscheiden. Beispielsweise erreicht das Open-Source-Modell Search-R1 in Kombination mit dem BM25-Retriever eine Genauigkeit von 3,86 %, während GPT-5 55,9 % erreicht. Die Integration von GPT-5 mit dem Qwen3-Embedding-8B-Retriever steigert die Genauigkeit weiter auf 70,1 % bei weniger Suchanfragen. Dieser Benchmark ermöglicht eine umfassende Evaluierung und entkoppelte Analyse von Deep-Research-Agenten und Retrieval-Methoden, wodurch Einblicke in die Effektivität des Retrievals, die Zitiergenauigkeit und das Kontext-Engineering in Deep-Research-Systemen gefördert werden.
English
Deep-Research agents, which integrate large language models (LLMs) with
search tools, have shown success in improving the effectiveness of handling
complex queries that require iterative search planning and reasoning over
search results. Evaluations on current benchmarks like BrowseComp relies on
black-box live web search APIs, have notable limitations in (1) fairness:
dynamic and opaque web APIs hinder fair comparisons and reproducibility of deep
research methods; (2) transparency: lack of control over the document corpus
makes it difficult to isolate retriever contributions. In other words, the
current evaluations may compare a complete deep research system at a given
time, but they do not foster well-controlled experiments to provide insights
into the capability of underlying deep research LLMs. To address these
challenges, we introduce BrowseComp-Plus, a benchmark derived from BrowseComp,
employing a fixed, carefully curated corpus. Each query in BrowseComp-Plus
includes human-verified supporting documents and mined challenging negatives,
enabling controlled experimentation. The benchmark is shown to be effective in
distinguishing the performance of deep research systems. For instance, the
open-source model Search-R1, when paired with the BM25 retriever, achieves
3.86% accuracy, whereas the GPT-5 achieves 55.9%. Integrating the GPT-5 with
the Qwen3-Embedding-8B retriever further enhances its accuracy to 70.1% with
fewer search calls. This benchmark allows comprehensive evaluation and
disentangled analysis of deep research agents and retrieval methods, fostering
insights into retrieval effectiveness, citation accuracy, and context
engineering in Deep-Research system.