BrowseComp-ZH: Avaliação da Capacidade de Navegação na Web de Modelos de Linguagem de Grande Escala em Chinês
BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese
April 27, 2025
Autores: Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala (LLMs) evoluem para agentes que utilizam ferramentas, a capacidade de navegar na web em tempo real tornou-se um critério crucial para medir sua competência em raciocínio e recuperação de informações. Benchmarks existentes, como o BrowseComp, concentram-se no inglês e ignoram as complexidades linguísticas, de infraestrutura e relacionadas à censura de outros grandes ecossistemas de informação — mais notavelmente o chinês. Para preencher essa lacuna, apresentamos o BrowseComp-ZH, um benchmark de alta dificuldade projetado especificamente para avaliar de forma abrangente agentes LLM na web chinesa. O BrowseComp-ZH consiste em 289 perguntas de múltiplos saltos, abrangendo 11 domínios diversos. Cada pergunta é engenharia reversa a partir de uma resposta curta, objetiva e facilmente verificável (por exemplo, uma data, número ou nome próprio). Um protocolo de controle de qualidade em duas etapas é aplicado para garantir alta dificuldade das perguntas e unicidade das respostas. Avaliamos mais de 20 modelos de linguagem e sistemas de busca agentes de última geração em nosso BrowseComp-ZH proposto. Apesar de suas fortes capacidades conversacionais e de recuperação, a maioria dos modelos enfrenta dificuldades severas: um grande número atinge taxas de precisão abaixo de 10%, e apenas alguns ultrapassam 20%. Mesmo o sistema de melhor desempenho, o DeepResearch da OpenAI, alcança apenas 42,9%. Esses resultados demonstram a considerável dificuldade do BrowseComp-ZH, onde o sucesso exige não apenas estratégias eficazes de recuperação, mas também raciocínio sofisticado e reconciliação de informações — capacidades que os modelos atuais ainda lutam para dominar. Nosso conjunto de dados, diretrizes de construção e resultados de benchmark foram disponibilizados publicamente em https://github.com/PALIN2018/BrowseComp-ZH.
English
As large language models (LLMs) evolve into tool-using agents, the ability to
browse the web in real-time has become a critical yardstick for measuring their
reasoning and retrieval competence. Existing benchmarks such as BrowseComp
concentrate on English and overlook the linguistic, infrastructural, and
censorship-related complexities of other major information ecosystems -- most
notably Chinese. To address this gap, we introduce BrowseComp-ZH, a
high-difficulty benchmark purpose-built to comprehensively evaluate LLM agents
on the Chinese web. BrowseComp-ZH consists of 289 multi-hop questions spanning
11 diverse domains. Each question is reverse-engineered from a short,
objective, and easily verifiable answer (e.g., a date, number, or proper noun).
A two-stage quality control protocol is applied to strive for high question
difficulty and answer uniqueness. We benchmark over 20 state-of-the-art
language models and agentic search systems on our proposed BrowseComp-ZH.
Despite their strong conversational and retrieval capabilities, most models
struggle severely: a large number achieve accuracy rates below 10%, and only a
handful exceed 20%. Even the best-performing system, OpenAI's DeepResearch,
reaches just 42.9%. These results demonstrate the considerable difficulty of
BrowseComp-ZH, where success demands not only effective retrieval strategies,
but also sophisticated reasoning and information reconciliation -- capabilities
that current models still struggle to master. Our dataset, construction
guidelines, and benchmark results have been publicly released at
https://github.com/PALIN2018/BrowseComp-ZH.