BrowseComp-ZH: Evaluación de la Capacidad de Navegación Web de Modelos de Lenguaje de Gran Escala en Chino
BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese
April 27, 2025
Autores: Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua
cs.AI
Resumen
A medida que los modelos de lenguaje de gran escala (LLMs) evolucionan hacia agentes que utilizan herramientas, la capacidad de navegar por la web en tiempo real se ha convertido en un criterio fundamental para medir su competencia en razonamiento y recuperación de información. Los puntos de referencia existentes, como BrowseComp, se centran en el inglés y pasan por alto las complejidades lingüísticas, de infraestructura y relacionadas con la censura de otros ecosistemas de información importantes, especialmente el chino. Para abordar esta brecha, presentamos BrowseComp-ZH, un punto de referencia de alta dificultad diseñado específicamente para evaluar de manera integral a los agentes LLM en la web china. BrowseComp-ZH consta de 289 preguntas de múltiples saltos que abarcan 11 dominios diversos. Cada pregunta se ha diseñado a partir de una respuesta corta, objetiva y fácilmente verificable (por ejemplo, una fecha, un número o un nombre propio). Se aplica un protocolo de control de calidad de dos etapas para garantizar una alta dificultad en las preguntas y la unicidad de las respuestas. Evaluamos más de 20 modelos de lenguaje y sistemas de búsqueda agentes de última generación en nuestro BrowseComp-ZH propuesto. A pesar de sus fuertes capacidades conversacionales y de recuperación, la mayoría de los modelos tienen dificultades severas: un gran número obtiene tasas de precisión inferiores al 10%, y solo unos pocos superan el 20%. Incluso el sistema con mejor rendimiento, DeepResearch de OpenAI, alcanza solo un 42,9%. Estos resultados demuestran la considerable dificultad de BrowseComp-ZH, donde el éxito exige no solo estrategias de recuperación efectivas, sino también un razonamiento sofisticado y una reconciliación de información, capacidades que los modelos actuales aún tienen dificultades para dominar. Nuestro conjunto de datos, las pautas de construcción y los resultados del punto de referencia se han publicado públicamente en https://github.com/PALIN2018/BrowseComp-ZH.
English
As large language models (LLMs) evolve into tool-using agents, the ability to
browse the web in real-time has become a critical yardstick for measuring their
reasoning and retrieval competence. Existing benchmarks such as BrowseComp
concentrate on English and overlook the linguistic, infrastructural, and
censorship-related complexities of other major information ecosystems -- most
notably Chinese. To address this gap, we introduce BrowseComp-ZH, a
high-difficulty benchmark purpose-built to comprehensively evaluate LLM agents
on the Chinese web. BrowseComp-ZH consists of 289 multi-hop questions spanning
11 diverse domains. Each question is reverse-engineered from a short,
objective, and easily verifiable answer (e.g., a date, number, or proper noun).
A two-stage quality control protocol is applied to strive for high question
difficulty and answer uniqueness. We benchmark over 20 state-of-the-art
language models and agentic search systems on our proposed BrowseComp-ZH.
Despite their strong conversational and retrieval capabilities, most models
struggle severely: a large number achieve accuracy rates below 10%, and only a
handful exceed 20%. Even the best-performing system, OpenAI's DeepResearch,
reaches just 42.9%. These results demonstrate the considerable difficulty of
BrowseComp-ZH, where success demands not only effective retrieval strategies,
but also sophisticated reasoning and information reconciliation -- capabilities
that current models still struggle to master. Our dataset, construction
guidelines, and benchmark results have been publicly released at
https://github.com/PALIN2018/BrowseComp-ZH.Summary
AI-Generated Summary