BrowseComp-ZH: 中国語における大規模言語モデルのウェブブラウジング能力のベンチマーク
BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese
April 27, 2025
著者: Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua
cs.AI
要旨
大規模言語モデル(LLM)がツール利用エージェントへと進化するにつれ、リアルタイムでのウェブ閲覧能力は、それらの推論および検索能力を測る重要な指標となっています。既存のベンチマークであるBrowseCompは英語に焦点を当てており、他の主要な情報エコシステム、特に中国語圏における言語的、インフラ的、検閲関連の複雑さを見落としています。このギャップを埋めるため、我々は中国語ウェブを包括的に評価するために設計された高難易度のベンチマーク、BrowseComp-ZHを導入します。BrowseComp-ZHは11の多様なドメインにわたる289のマルチホップ質問で構成されています。各質問は、短く、客観的で、容易に検証可能な回答(例:日付、数値、固有名詞)から逆算して作成されています。高難易度と回答の一意性を追求するため、2段階の品質管理プロトコルが適用されています。我々は、提案したBrowseComp-ZHにおいて、20以上の最先端言語モデルおよび検索システムをベンチマークしました。強力な会話および検索能力を持つにもかかわらず、ほとんどのモデルは深刻な苦戦を強いられました:多くのモデルが10%未満の正答率であり、20%を超えるモデルはごく少数でした。最高性能のシステムであるOpenAIのDeepResearchでさえ、42.9%に留まりました。これらの結果は、BrowseComp-ZHの相当な難易度を示しており、成功には効果的な検索戦略だけでなく、洗練された推論と情報の統合能力が必要であり、現在のモデルはこれらの能力をまだ十分に習得できていないことを示しています。我々のデータセット、構築ガイドライン、およびベンチマーク結果は、https://github.com/PALIN2018/BrowseComp-ZH で公開されています。
English
As large language models (LLMs) evolve into tool-using agents, the ability to
browse the web in real-time has become a critical yardstick for measuring their
reasoning and retrieval competence. Existing benchmarks such as BrowseComp
concentrate on English and overlook the linguistic, infrastructural, and
censorship-related complexities of other major information ecosystems -- most
notably Chinese. To address this gap, we introduce BrowseComp-ZH, a
high-difficulty benchmark purpose-built to comprehensively evaluate LLM agents
on the Chinese web. BrowseComp-ZH consists of 289 multi-hop questions spanning
11 diverse domains. Each question is reverse-engineered from a short,
objective, and easily verifiable answer (e.g., a date, number, or proper noun).
A two-stage quality control protocol is applied to strive for high question
difficulty and answer uniqueness. We benchmark over 20 state-of-the-art
language models and agentic search systems on our proposed BrowseComp-ZH.
Despite their strong conversational and retrieval capabilities, most models
struggle severely: a large number achieve accuracy rates below 10%, and only a
handful exceed 20%. Even the best-performing system, OpenAI's DeepResearch,
reaches just 42.9%. These results demonstrate the considerable difficulty of
BrowseComp-ZH, where success demands not only effective retrieval strategies,
but also sophisticated reasoning and information reconciliation -- capabilities
that current models still struggle to master. Our dataset, construction
guidelines, and benchmark results have been publicly released at
https://github.com/PALIN2018/BrowseComp-ZH.Summary
AI-Generated Summary