ChatPaper.aiChatPaper

BrowseComp-ZH: 대규모 언어 모델의 중국어 웹 브라우징 능력 벤치마킹

BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese

April 27, 2025
저자: Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua
cs.AI

초록

대규모 언어 모델(LLM)이 도구 사용 에이전트로 진화함에 따라, 실시간 웹 탐색 능력은 이들의 추론 및 정보 검색 역량을 측정하는 중요한 척도가 되었습니다. 기존의 BrowseComp와 같은 벤치마크는 영어에 집중되어 있으며, 중국어를 비롯한 주요 정보 생태계의 언어적, 인프라적, 검열 관련 복잡성을 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 중국어 웹에서 LLM 에이전트를 종합적으로 평가하기 위해 특별히 설계된 고난이도 벤치마크인 BrowseComp-ZH를 소개합니다. BrowseComp-ZH는 11개의 다양한 도메인에 걸친 289개의 다중 홉 질문으로 구성되어 있습니다. 각 질문은 짧고 객관적이며 쉽게 검증 가능한 답변(예: 날짜, 숫자, 고유 명사)으로부터 역설계되었습니다. 높은 질문 난이도와 답변의 유일성을 보장하기 위해 두 단계의 품질 관리 프로토콜이 적용되었습니다. 우리는 제안된 BrowseComp-ZH에서 20개 이상의 최첨단 언어 모델과 에이전트 검색 시스템을 벤치마크했습니다. 강력한 대화 및 검색 능력에도 불구하고, 대부분의 모델은 심각한 어려움을 겪었습니다: 많은 모델이 10% 미만의 정확도를 보였으며, 극소수만이 20%를 넘었습니다. 가장 성능이 뛰어난 시스템인 OpenAI의 DeepResearch조차도 42.9%에 그쳤습니다. 이러한 결과는 BrowseComp-ZH의 상당한 난이도를 보여주며, 성공을 위해서는 효과적인 검색 전략뿐만 아니라 정교한 추론과 정보 조정 능력이 필요함을 시사합니다. 이러한 역량은 현재의 모델들이 여전히 숙달하지 못한 부분입니다. 우리의 데이터셋, 구성 지침 및 벤치마크 결과는 https://github.com/PALIN2018/BrowseComp-ZH에서 공개되었습니다.
English
As large language models (LLMs) evolve into tool-using agents, the ability to browse the web in real-time has become a critical yardstick for measuring their reasoning and retrieval competence. Existing benchmarks such as BrowseComp concentrate on English and overlook the linguistic, infrastructural, and censorship-related complexities of other major information ecosystems -- most notably Chinese. To address this gap, we introduce BrowseComp-ZH, a high-difficulty benchmark purpose-built to comprehensively evaluate LLM agents on the Chinese web. BrowseComp-ZH consists of 289 multi-hop questions spanning 11 diverse domains. Each question is reverse-engineered from a short, objective, and easily verifiable answer (e.g., a date, number, or proper noun). A two-stage quality control protocol is applied to strive for high question difficulty and answer uniqueness. We benchmark over 20 state-of-the-art language models and agentic search systems on our proposed BrowseComp-ZH. Despite their strong conversational and retrieval capabilities, most models struggle severely: a large number achieve accuracy rates below 10%, and only a handful exceed 20%. Even the best-performing system, OpenAI's DeepResearch, reaches just 42.9%. These results demonstrate the considerable difficulty of BrowseComp-ZH, where success demands not only effective retrieval strategies, but also sophisticated reasoning and information reconciliation -- capabilities that current models still struggle to master. Our dataset, construction guidelines, and benchmark results have been publicly released at https://github.com/PALIN2018/BrowseComp-ZH.

Summary

AI-Generated Summary

PDF41May 9, 2025