BrowseComp-Plus: Een Eerlijker en Transparanter Evaluatiebenchmark voor Diepgaand Onderzoekende Agents
BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent
August 8, 2025
Auteurs: Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin
cs.AI
Samenvatting
Deep-Research agents, die grote taalmodellen (LLMs) integreren met zoekgereedschappen, hebben succes getoond in het verbeteren van de effectiviteit bij het verwerken van complexe queries die iteratieve zoekplanning en redenering over zoekresultaten vereisen. Evaluaties op huidige benchmarks zoals BrowseComp, die vertrouwen op black-box live webzoek-API's, hebben aanzienlijke beperkingen in (1) eerlijkheid: dynamische en ondoorzichtige web-API's belemmeren eerlijke vergelijkingen en reproduceerbaarheid van deep-researchmethoden; (2) transparantie: het gebrek aan controle over het documentcorpus maakt het moeilijk om de bijdragen van de retriever te isoleren. Met andere woorden, de huidige evaluaties vergelijken mogelijk een compleet deep-researchsysteem op een bepaald moment, maar ze bevorderen geen goed gecontroleerde experimenten om inzicht te geven in de capaciteiten van de onderliggende deep-research-LLMs. Om deze uitdagingen aan te pakken, introduceren we BrowseComp-Plus, een benchmark afgeleid van BrowseComp, die gebruikmaakt van een vast, zorgvuldig samengesteld corpus. Elke query in BrowseComp-Plus bevat door mensen geverifieerde ondersteunende documenten en uitdagende negatieven, wat gecontroleerde experimenten mogelijk maakt. De benchmark blijkt effectief te zijn in het onderscheiden van de prestaties van deep-researchsystemen. Zo behaalt het open-sourcemodel Search-R1, wanneer gekoppeld aan de BM25-retriever, een nauwkeurigheid van 3,86%, terwijl GPT-5 een nauwkeurigheid van 55,9% bereikt. Het integreren van GPT-5 met de Qwen3-Embedding-8B-retriever verbetert de nauwkeurigheid verder tot 70,1% met minder zoekopdrachten. Deze benchmark maakt een uitgebreide evaluatie en ontrafelde analyse van deep-researchagents en retrievemethoden mogelijk, wat inzicht bevordert in de effectiviteit van retrievals, citaatnauwkeurigheid en contextengineering in Deep-Researchsystemen.
English
Deep-Research agents, which integrate large language models (LLMs) with
search tools, have shown success in improving the effectiveness of handling
complex queries that require iterative search planning and reasoning over
search results. Evaluations on current benchmarks like BrowseComp relies on
black-box live web search APIs, have notable limitations in (1) fairness:
dynamic and opaque web APIs hinder fair comparisons and reproducibility of deep
research methods; (2) transparency: lack of control over the document corpus
makes it difficult to isolate retriever contributions. In other words, the
current evaluations may compare a complete deep research system at a given
time, but they do not foster well-controlled experiments to provide insights
into the capability of underlying deep research LLMs. To address these
challenges, we introduce BrowseComp-Plus, a benchmark derived from BrowseComp,
employing a fixed, carefully curated corpus. Each query in BrowseComp-Plus
includes human-verified supporting documents and mined challenging negatives,
enabling controlled experimentation. The benchmark is shown to be effective in
distinguishing the performance of deep research systems. For instance, the
open-source model Search-R1, when paired with the BM25 retriever, achieves
3.86% accuracy, whereas the GPT-5 achieves 55.9%. Integrating the GPT-5 with
the Qwen3-Embedding-8B retriever further enhances its accuracy to 70.1% with
fewer search calls. This benchmark allows comprehensive evaluation and
disentangled analysis of deep research agents and retrieval methods, fostering
insights into retrieval effectiveness, citation accuracy, and context
engineering in Deep-Research system.