K-BrowseComp: Een benchmark voor webbrowsing-agents, gegrond in Koreaanse contexten.

Samenvatting

De evaluaties van grensverleggende modellen verschuiven van fundamentele capaciteiten (zoals instructievolging en redeneren) naar compositorische, agentische capaciteiten, maar Koreaanse agentische benchmarks blijven schaars. We introduceren K-BrowseComp, een web-browsing agent benchmark die is verankerd in de Koreaanse context, bestaande uit 400 problemen. De 300-problemen tellende subset K-BrowseComp-Verified is handmatig geconstrueerd en gevalideerd door moedertaalsprekers van het Koreaans. Op deze subset behalen grensverleggende LLM's, waaronder GPT-5.5, DeepSeek-V4-Pro en GLM-5.1, slechts 30,00–45,67%, een aanzienlijke daling ten opzichte van BrowseComp, terwijl Koreaanse LLM's die zijn uitgebracht via het eigen AI-stichtingsmodelprogramma van Korea slechts 0,00–10,33% behalen. We construeren verder een synthetische split van 100 problemen met behulp van harde few-shot voorbeelden en op faalmodi gerichte generatie om de asymmetrie tussen het oplossen en creëren van web-browsing problemen te benutten. Op de adversariaal gefilterde synthetische diagnostische split bereikt het sterkste model slechts 26,00%, en we rapporteren deze split apart als een gerichte stresstest. We geven onze data en code publiekelijk vrij.

English

Frontier model evaluations are shifting from foundational capabilities (e.g., instruction following and reasoning) toward compositional, agentic ones, but Korean agentic benchmarks remain scarce. We introduce K-BrowseComp, a web-browsing agent benchmark grounded in Korean contexts, consisting of 400 problems. The 300-problem K-BrowseComp-Verified subset is manually constructed and validated by native Korean speakers. On this subset, frontier LLMs, including GPT-5.5, DeepSeek-V4-Pro, and GLM-5.1, reach only 30.00--45.67\%, a substantial drop from BrowseComp, while Korean LLMs released through Korea's Proprietary AI Foundation Model program obtain only 0.00--10.33\%. We further construct a 100-problem synthetic split using hard few-shot exemplars and failure-mode-targeted generation to exploit the asymmetry between solving and creating web browsing problems. On the adversarially filtered synthetic diagnostic split, the strongest model reaches only 26.00\%, and we report this split separately as a targeted stress test. We publicly release our data and code.