BrowseComp-ZH : Évaluation des capacités de navigation web des grands modèles de langage en chinois
BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese
April 27, 2025
Auteurs: Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua
cs.AI
Résumé
Alors que les grands modèles de langage (LLM) évoluent en agents utilisant des outils, la capacité à naviguer sur le web en temps réel est devenue un critère essentiel pour mesurer leurs compétences en raisonnement et en recherche. Les benchmarks existants, tels que BrowseComp, se concentrent sur l'anglais et négligent les complexités linguistiques, infrastructurelles et liées à la censure des autres écosystèmes d'information majeurs — notamment le chinois. Pour combler cette lacune, nous introduisons BrowseComp-ZH, un benchmark de haute difficulté conçu spécifiquement pour évaluer de manière exhaustive les agents LLM sur le web chinois. BrowseComp-ZH comprend 289 questions multi-sauts couvrant 11 domaines divers. Chaque question est rétro-conçue à partir d'une réponse courte, objective et facilement vérifiable (par exemple, une date, un nombre ou un nom propre). Un protocole de contrôle qualité en deux étapes est appliqué pour viser une difficulté élevée des questions et une unicité des réponses. Nous évaluons plus de 20 modèles de langage et systèmes de recherche agentiques de pointe sur notre benchmark BrowseComp-ZH. Malgré leurs solides capacités conversationnelles et de recherche, la plupart des modèles rencontrent de graves difficultés : un grand nombre obtiennent des taux de précision inférieurs à 10 %, et seulement quelques-uns dépassent 20 %. Même le système le plus performant, DeepResearch d'OpenAI, atteint seulement 42,9 %. Ces résultats démontrent la difficulté considérable de BrowseComp-ZH, où le succès exige non seulement des stratégies de recherche efficaces, mais aussi un raisonnement sophistiqué et une réconciliation d'informations — des capacités que les modèles actuels peinent encore à maîtriser. Notre jeu de données, nos directives de construction et nos résultats de benchmark ont été rendus publics à l'adresse https://github.com/PALIN2018/BrowseComp-ZH.
English
As large language models (LLMs) evolve into tool-using agents, the ability to
browse the web in real-time has become a critical yardstick for measuring their
reasoning and retrieval competence. Existing benchmarks such as BrowseComp
concentrate on English and overlook the linguistic, infrastructural, and
censorship-related complexities of other major information ecosystems -- most
notably Chinese. To address this gap, we introduce BrowseComp-ZH, a
high-difficulty benchmark purpose-built to comprehensively evaluate LLM agents
on the Chinese web. BrowseComp-ZH consists of 289 multi-hop questions spanning
11 diverse domains. Each question is reverse-engineered from a short,
objective, and easily verifiable answer (e.g., a date, number, or proper noun).
A two-stage quality control protocol is applied to strive for high question
difficulty and answer uniqueness. We benchmark over 20 state-of-the-art
language models and agentic search systems on our proposed BrowseComp-ZH.
Despite their strong conversational and retrieval capabilities, most models
struggle severely: a large number achieve accuracy rates below 10%, and only a
handful exceed 20%. Even the best-performing system, OpenAI's DeepResearch,
reaches just 42.9%. These results demonstrate the considerable difficulty of
BrowseComp-ZH, where success demands not only effective retrieval strategies,
but also sophisticated reasoning and information reconciliation -- capabilities
that current models still struggle to master. Our dataset, construction
guidelines, and benchmark results have been publicly released at
https://github.com/PALIN2018/BrowseComp-ZH.Summary
AI-Generated Summary