BrowseComp-Plus: Более справедливый и прозрачный эталонный тест для оценки агентов глубокого поиска
BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent
August 8, 2025
Авторы: Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin
cs.AI
Аннотация
Агенты Deep-Research, которые объединяют большие языковые модели (LLM) с инструментами поиска, продемонстрировали успехи в повышении эффективности обработки сложных запросов, требующих итеративного планирования поиска и рассуждений на основе результатов поиска. Оценки на текущих бенчмарках, таких как BrowseComp, которые полагаются на черные ящики API живого веб-поиска, имеют существенные ограничения: (1) справедливость — динамические и непрозрачные веб-API затрудняют честные сравнения и воспроизводимость методов глубокого исследования; (2) прозрачность — отсутствие контроля над корпусом документов затрудняет изолирование вклада поискового механизма. Другими словами, текущие оценки могут сравнивать полную систему глубокого исследования в определенный момент времени, но они не способствуют проведению хорошо контролируемых экспериментов, которые могли бы дать представление о возможностях базовых LLM для глубокого исследования. Для решения этих проблем мы представляем BrowseComp-Plus — бенчмарк, основанный на BrowseComp, использующий фиксированный, тщательно отобранный корпус документов. Каждый запрос в BrowseComp-Plus включает проверенные человеком поддерживающие документы и сложные негативные примеры, что позволяет проводить контролируемые эксперименты. Бенчмарк доказал свою эффективность в различии производительности систем глубокого исследования. Например, открытая модель Search-R1 в сочетании с поисковым механизмом BM25 достигает точности 3,86%, тогда как GPT-5 достигает 55,9%. Интеграция GPT-5 с поисковым механизмом Qwen3-Embedding-8B дополнительно повышает точность до 70,1% при меньшем количестве поисковых запросов. Этот бенчмарк позволяет проводить всестороннюю оценку и раздельный анализ агентов глубокого исследования и методов поиска, способствуя пониманию эффективности поиска, точности цитирования и инженерии контекста в системах Deep-Research.
English
Deep-Research agents, which integrate large language models (LLMs) with
search tools, have shown success in improving the effectiveness of handling
complex queries that require iterative search planning and reasoning over
search results. Evaluations on current benchmarks like BrowseComp relies on
black-box live web search APIs, have notable limitations in (1) fairness:
dynamic and opaque web APIs hinder fair comparisons and reproducibility of deep
research methods; (2) transparency: lack of control over the document corpus
makes it difficult to isolate retriever contributions. In other words, the
current evaluations may compare a complete deep research system at a given
time, but they do not foster well-controlled experiments to provide insights
into the capability of underlying deep research LLMs. To address these
challenges, we introduce BrowseComp-Plus, a benchmark derived from BrowseComp,
employing a fixed, carefully curated corpus. Each query in BrowseComp-Plus
includes human-verified supporting documents and mined challenging negatives,
enabling controlled experimentation. The benchmark is shown to be effective in
distinguishing the performance of deep research systems. For instance, the
open-source model Search-R1, when paired with the BM25 retriever, achieves
3.86% accuracy, whereas the GPT-5 achieves 55.9%. Integrating the GPT-5 with
the Qwen3-Embedding-8B retriever further enhances its accuracy to 70.1% with
fewer search calls. This benchmark allows comprehensive evaluation and
disentangled analysis of deep research agents and retrieval methods, fostering
insights into retrieval effectiveness, citation accuracy, and context
engineering in Deep-Research system.