BrowseComp-ZH: Оценка способности крупных языковых моделей к веб-серфингу на китайском языке
BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese
April 27, 2025
Авторы: Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua
cs.AI
Аннотация
По мере того как крупные языковые модели (LLM) превращаются в агентов, использующих инструменты, способность просматривать веб в реальном времени стала ключевым критерием для оценки их компетенции в рассуждениях и поиске информации. Существующие бенчмарки, такие как BrowseComp, сосредоточены на английском языке и игнорируют лингвистические, инфраструктурные и цензурные сложности других крупных информационных экосистем, в первую очередь китайской. Чтобы устранить этот пробел, мы представляем BrowseComp-ZH — высокосложный бенчмарк, специально разработанный для всесторонней оценки LLM-агентов в китайском интернете. BrowseComp-ZH состоит из 289 многошаговых вопросов, охватывающих 11 разнообразных областей. Каждый вопрос создан на основе короткого, объективного и легко проверяемого ответа (например, даты, числа или имени собственного). Для обеспечения высокой сложности вопросов и уникальности ответов применяется двухэтапный протокол контроля качества. Мы тестируем более 20 современных языковых моделей и поисковых систем на предложенном нами BrowseComp-ZH. Несмотря на их сильные разговорные и поисковые способности, большинство моделей демонстрируют серьезные трудности: многие достигают точности ниже 10%, и лишь немногие превышают 20%. Даже лучшая система, DeepResearch от OpenAI, достигает всего 42,9%. Эти результаты демонстрируют значительную сложность BrowseComp-ZH, где успех требует не только эффективных стратегий поиска, но и сложных рассуждений и согласования информации — способностей, которыми современные модели пока не владеют в полной мере. Наш набор данных, руководство по созданию и результаты бенчмарка опубликованы на https://github.com/PALIN2018/BrowseComp-ZH.
English
As large language models (LLMs) evolve into tool-using agents, the ability to
browse the web in real-time has become a critical yardstick for measuring their
reasoning and retrieval competence. Existing benchmarks such as BrowseComp
concentrate on English and overlook the linguistic, infrastructural, and
censorship-related complexities of other major information ecosystems -- most
notably Chinese. To address this gap, we introduce BrowseComp-ZH, a
high-difficulty benchmark purpose-built to comprehensively evaluate LLM agents
on the Chinese web. BrowseComp-ZH consists of 289 multi-hop questions spanning
11 diverse domains. Each question is reverse-engineered from a short,
objective, and easily verifiable answer (e.g., a date, number, or proper noun).
A two-stage quality control protocol is applied to strive for high question
difficulty and answer uniqueness. We benchmark over 20 state-of-the-art
language models and agentic search systems on our proposed BrowseComp-ZH.
Despite their strong conversational and retrieval capabilities, most models
struggle severely: a large number achieve accuracy rates below 10%, and only a
handful exceed 20%. Even the best-performing system, OpenAI's DeepResearch,
reaches just 42.9%. These results demonstrate the considerable difficulty of
BrowseComp-ZH, where success demands not only effective retrieval strategies,
but also sophisticated reasoning and information reconciliation -- capabilities
that current models still struggle to master. Our dataset, construction
guidelines, and benchmark results have been publicly released at
https://github.com/PALIN2018/BrowseComp-ZH.Summary
AI-Generated Summary