BrowseComp-ZH: Benchmarking der Web-Browsing-Fähigkeit großer Sprachmodelle im Chinesischen
BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese
April 27, 2025
Autoren: Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua
cs.AI
Zusammenfassung
Da sich große Sprachmodelle (LLMs) zu werkzeugnutzenden Agenten entwickeln, ist die Fähigkeit, das Web in Echtzeit zu durchsuchen, zu einem entscheidenden Maßstab für die Bewertung ihrer Schlussfolgerungs- und Abrufkompetenz geworden. Bestehende Benchmarks wie BrowseComp konzentrieren sich auf Englisch und übersehen die sprachlichen, infrastrukturellen und zensurbedingten Komplexitäten anderer großer Informationsökosysteme – insbesondere des Chinesischen. Um diese Lücke zu schließen, führen wir BrowseComp-ZH ein, einen Benchmark mit hohem Schwierigkeitsgrad, der speziell entwickelt wurde, um LLM-Agenten umfassend auf dem chinesischen Web zu evaluieren. BrowseComp-ZH besteht aus 289 Multi-Hop-Fragen, die 11 verschiedene Domänen abdecken. Jede Frage wurde rückwärts entwickelt, basierend auf einer kurzen, objektiven und leicht überprüfbaren Antwort (z. B. einem Datum, einer Zahl oder einem Eigennamen). Ein zweistufiges Qualitätskontrollprotokoll wird angewendet, um eine hohe Fragekomplexität und Antwort-Eindeutigkeit zu gewährleisten. Wir evaluieren über 20 state-of-the-art Sprachmodelle und agentenbasierte Suchsysteme auf unserem vorgeschlagenen BrowseComp-ZH. Trotz ihrer starken Konversations- und Abruffähigkeiten kämpfen die meisten Modelle erheblich: Eine große Anzahl erreicht Genauigkeitsraten von unter 10 %, und nur wenige überschreiten 20 %. Selbst das leistungsstärkste System, OpenAIs DeepResearch, erreicht lediglich 42,9 %. Diese Ergebnisse demonstrieren die beträchtliche Schwierigkeit von BrowseComp-ZH, bei dem Erfolg nicht nur effektive Abrufstrategien, sondern auch anspruchsvolles Schlussfolgern und Informationsabgleich erfordert – Fähigkeiten, mit denen aktuelle Modelle noch immer zu kämpfen haben. Unser Datensatz, die Konstruktionsrichtlinien und die Benchmark-Ergebnisse wurden öffentlich unter https://github.com/PALIN2018/BrowseComp-ZH veröffentlicht.
English
As large language models (LLMs) evolve into tool-using agents, the ability to
browse the web in real-time has become a critical yardstick for measuring their
reasoning and retrieval competence. Existing benchmarks such as BrowseComp
concentrate on English and overlook the linguistic, infrastructural, and
censorship-related complexities of other major information ecosystems -- most
notably Chinese. To address this gap, we introduce BrowseComp-ZH, a
high-difficulty benchmark purpose-built to comprehensively evaluate LLM agents
on the Chinese web. BrowseComp-ZH consists of 289 multi-hop questions spanning
11 diverse domains. Each question is reverse-engineered from a short,
objective, and easily verifiable answer (e.g., a date, number, or proper noun).
A two-stage quality control protocol is applied to strive for high question
difficulty and answer uniqueness. We benchmark over 20 state-of-the-art
language models and agentic search systems on our proposed BrowseComp-ZH.
Despite their strong conversational and retrieval capabilities, most models
struggle severely: a large number achieve accuracy rates below 10%, and only a
handful exceed 20%. Even the best-performing system, OpenAI's DeepResearch,
reaches just 42.9%. These results demonstrate the considerable difficulty of
BrowseComp-ZH, where success demands not only effective retrieval strategies,
but also sophisticated reasoning and information reconciliation -- capabilities
that current models still struggle to master. Our dataset, construction
guidelines, and benchmark results have been publicly released at
https://github.com/PALIN2018/BrowseComp-ZH.Summary
AI-Generated Summary