BrowseComp-Plus : Un benchmark d'évaluation plus équitable et transparent pour les agents de recherche approfondie
BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent
August 8, 2025
papers.authors: Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin
cs.AI
papers.abstract
Les agents de Deep-Research, qui intègrent des modèles de langage de grande taille (LLMs) avec des outils de recherche, ont démontré leur efficacité pour améliorer la prise en charge de requêtes complexes nécessitant une planification itérative de la recherche et un raisonnement sur les résultats. Les évaluations sur les benchmarks actuels comme BrowseComp, qui reposent sur des API de recherche web en temps réel en boîte noire, présentent des limitations notables en termes de (1) équité : les API web dynamiques et opaques entravent les comparaisons équitables et la reproductibilité des méthodes de deep-research ; (2) transparence : le manque de contrôle sur le corpus de documents rend difficile l'isolation des contributions du système de récupération. En d'autres termes, les évaluations actuelles peuvent comparer un système complet de deep-research à un moment donné, mais elles ne favorisent pas des expériences bien contrôlées pour fournir des insights sur les capacités des LLMs sous-jacents en deep-research. Pour répondre à ces défis, nous introduisons BrowseComp-Plus, un benchmark dérivé de BrowseComp, utilisant un corpus fixe et soigneusement sélectionné. Chaque requête dans BrowseComp-Plus inclut des documents de support vérifiés par des humains et des négatifs difficiles extraits, permettant une expérimentation contrôlée. Ce benchmark s'avère efficace pour distinguer les performances des systèmes de deep-research. Par exemple, le modèle open-source Search-R1, associé au récupérateur BM25, atteint une précision de 3,86 %, tandis que GPT-5 atteint 55,9 %. L'intégration de GPT-5 avec le récupérateur Qwen3-Embedding-8B améliore encore sa précision à 70,1 % avec moins d'appels de recherche. Ce benchmark permet une évaluation complète et une analyse découplée des agents de deep-research et des méthodes de récupération, favorisant des insights sur l'efficacité de la récupération, la précision des citations et l'ingénierie du contexte dans les systèmes de Deep-Research.
English
Deep-Research agents, which integrate large language models (LLMs) with
search tools, have shown success in improving the effectiveness of handling
complex queries that require iterative search planning and reasoning over
search results. Evaluations on current benchmarks like BrowseComp relies on
black-box live web search APIs, have notable limitations in (1) fairness:
dynamic and opaque web APIs hinder fair comparisons and reproducibility of deep
research methods; (2) transparency: lack of control over the document corpus
makes it difficult to isolate retriever contributions. In other words, the
current evaluations may compare a complete deep research system at a given
time, but they do not foster well-controlled experiments to provide insights
into the capability of underlying deep research LLMs. To address these
challenges, we introduce BrowseComp-Plus, a benchmark derived from BrowseComp,
employing a fixed, carefully curated corpus. Each query in BrowseComp-Plus
includes human-verified supporting documents and mined challenging negatives,
enabling controlled experimentation. The benchmark is shown to be effective in
distinguishing the performance of deep research systems. For instance, the
open-source model Search-R1, when paired with the BM25 retriever, achieves
3.86% accuracy, whereas the GPT-5 achieves 55.9%. Integrating the GPT-5 with
the Qwen3-Embedding-8B retriever further enhances its accuracy to 70.1% with
fewer search calls. This benchmark allows comprehensive evaluation and
disentangled analysis of deep research agents and retrieval methods, fostering
insights into retrieval effectiveness, citation accuracy, and context
engineering in Deep-Research system.