BrowseComp-ZH: Benchmarking van het webnavigatievermogen van grote taalmodel- len in het Chinees
BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese
April 27, 2025
Auteurs: Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua
cs.AI
Samenvatting
Naarmate grote taalmodellen (LLM's) evolueren naar gereedschapgebruikende agents, is het vermogen om in realtime het web te doorzoeken een cruciale maatstaf geworden voor het meten van hun redeneer- en ophaalvaardigheden. Bestaande benchmarks zoals BrowseComp richten zich op Engels en negeren de linguïstische, infrastructurele en censuurgerelateerde complexiteiten van andere grote informatie-ecosystemen – met name het Chinese. Om dit gat te dichten, introduceren we BrowseComp-ZH, een benchmark met een hoge moeilijkheidsgraad die speciaal is ontworpen om LLM-agents uitgebreid te evalueren op het Chinese web. BrowseComp-ZH bestaat uit 289 multi-hop vragen die 11 diverse domeinen beslaan. Elke vraag is reverse-engineered vanuit een kort, objectief en eenvoudig verifieerbaar antwoord (bijvoorbeeld een datum, getal of eigennaam). Een tweestaps kwaliteitscontroleprotocol wordt toegepast om te streven naar hoge vraagmoeilijkheid en antwoorduniciteit. We benchmarken meer dan 20 state-of-the-art taalmodellen en agentische zoeksystemen op onze voorgestelde BrowseComp-ZH. Ondanks hun sterke conversatie- en ophaalcapaciteiten, worstelen de meeste modellen ernstig: een groot aantal behaalt nauwkeurigheidspercentages onder de 10%, en slechts een handvol overschrijdt 20%. Zelfs het best presterende systeem, OpenAI's DeepResearch, bereikt slechts 42,9%. Deze resultaten tonen de aanzienlijke moeilijkheid van BrowseComp-ZH aan, waar succes niet alleen effectieve ophaalstrategieën vereist, maar ook geavanceerd redeneren en informatieverzoening – vaardigheden waar huidige modellen nog steeds moeite mee hebben. Onze dataset, constructierichtlijnen en benchmarkresultaten zijn openbaar vrijgegeven op https://github.com/PALIN2018/BrowseComp-ZH.
English
As large language models (LLMs) evolve into tool-using agents, the ability to
browse the web in real-time has become a critical yardstick for measuring their
reasoning and retrieval competence. Existing benchmarks such as BrowseComp
concentrate on English and overlook the linguistic, infrastructural, and
censorship-related complexities of other major information ecosystems -- most
notably Chinese. To address this gap, we introduce BrowseComp-ZH, a
high-difficulty benchmark purpose-built to comprehensively evaluate LLM agents
on the Chinese web. BrowseComp-ZH consists of 289 multi-hop questions spanning
11 diverse domains. Each question is reverse-engineered from a short,
objective, and easily verifiable answer (e.g., a date, number, or proper noun).
A two-stage quality control protocol is applied to strive for high question
difficulty and answer uniqueness. We benchmark over 20 state-of-the-art
language models and agentic search systems on our proposed BrowseComp-ZH.
Despite their strong conversational and retrieval capabilities, most models
struggle severely: a large number achieve accuracy rates below 10%, and only a
handful exceed 20%. Even the best-performing system, OpenAI's DeepResearch,
reaches just 42.9%. These results demonstrate the considerable difficulty of
BrowseComp-ZH, where success demands not only effective retrieval strategies,
but also sophisticated reasoning and information reconciliation -- capabilities
that current models still struggle to master. Our dataset, construction
guidelines, and benchmark results have been publicly released at
https://github.com/PALIN2018/BrowseComp-ZH.