ChatPaper.aiChatPaper

BrowseComp-ZH: Valutazione delle Capacità di Navigazione Web dei Modelli Linguistici di Grande Dimensione in Cinese

BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese

April 27, 2025
Autori: Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua
cs.AI

Abstract

Man mano che i grandi modelli linguistici (LLM) si evolvono in agenti che utilizzano strumenti, la capacità di navigare sul web in tempo reale è diventata un criterio fondamentale per misurare la loro competenza nel ragionamento e nel recupero delle informazioni. Benchmark esistenti come BrowseComp si concentrano principalmente sull'inglese e trascurano le complessità linguistiche, infrastrutturali e legate alla censura di altri importanti ecosistemi informativi, in particolare quello cinese. Per colmare questa lacuna, introduciamo BrowseComp-ZH, un benchmark ad alta difficoltà progettato specificamente per valutare in modo completo gli agenti LLM sul web cinese. BrowseComp-ZH è composto da 289 domande multi-hop che coprono 11 domini diversi. Ogni domanda è stata ricostruita a partire da una risposta breve, oggettiva e facilmente verificabile (ad esempio, una data, un numero o un nome proprio). Un protocollo di controllo qualità in due fasi è stato applicato per garantire un'elevata difficoltà delle domande e l'unicità delle risposte. Abbiamo testato oltre 20 modelli linguistici e sistemi di ricerca agentici all'avanguardia sul nostro benchmark BrowseComp-ZH. Nonostante le loro forti capacità conversazionali e di recupero delle informazioni, la maggior parte dei modelli ha difficoltà significative: molti raggiungono tassi di accuratezza inferiori al 10%, e solo pochi superano il 20%. Anche il sistema con le migliori prestazioni, DeepResearch di OpenAI, raggiunge solo il 42,9%. Questi risultati dimostrano la notevole difficoltà di BrowseComp-ZH, dove il successo richiede non solo strategie di recupero efficaci, ma anche un ragionamento sofisticato e una riconciliazione delle informazioni — capacità che i modelli attuali faticano ancora a padroneggiare. Il nostro dataset, le linee guida per la costruzione e i risultati del benchmark sono stati pubblicamente rilasciati su https://github.com/PALIN2018/BrowseComp-ZH.
English
As large language models (LLMs) evolve into tool-using agents, the ability to browse the web in real-time has become a critical yardstick for measuring their reasoning and retrieval competence. Existing benchmarks such as BrowseComp concentrate on English and overlook the linguistic, infrastructural, and censorship-related complexities of other major information ecosystems -- most notably Chinese. To address this gap, we introduce BrowseComp-ZH, a high-difficulty benchmark purpose-built to comprehensively evaluate LLM agents on the Chinese web. BrowseComp-ZH consists of 289 multi-hop questions spanning 11 diverse domains. Each question is reverse-engineered from a short, objective, and easily verifiable answer (e.g., a date, number, or proper noun). A two-stage quality control protocol is applied to strive for high question difficulty and answer uniqueness. We benchmark over 20 state-of-the-art language models and agentic search systems on our proposed BrowseComp-ZH. Despite their strong conversational and retrieval capabilities, most models struggle severely: a large number achieve accuracy rates below 10%, and only a handful exceed 20%. Even the best-performing system, OpenAI's DeepResearch, reaches just 42.9%. These results demonstrate the considerable difficulty of BrowseComp-ZH, where success demands not only effective retrieval strategies, but also sophisticated reasoning and information reconciliation -- capabilities that current models still struggle to master. Our dataset, construction guidelines, and benchmark results have been publicly released at https://github.com/PALIN2018/BrowseComp-ZH.
PDF42May 9, 2025