K-BrowseComp: Un benchmark de agente de navegación web fundamentado en contextos coreanos

Resumen

Las evaluaciones de modelos frontera están desplazándose desde capacidades fundamentales (p. ej., seguir instrucciones y razonamiento) hacia capacidades composicionales y agentivas, pero los benchmarks agentivos en coreano siguen siendo escasos. Introducimos K-BrowseComp, un benchmark de agentes de navegación web contextualizado en coreano, compuesto por 400 problemas. El subconjunto de 300 problemas K-BrowseComp-Verified es construido manualmente y validado por hablantes nativos de coreano. En este subconjunto, los LLMs frontera, incluyendo GPT-5.5, DeepSeek-V4-Pro y GLM-5.1, alcanzan solo un 30.00–45.67%, una caída sustancial respecto a BrowseComp, mientras que los LLMs coreanos publicados a través del programa de Modelos de Fundación de IA Propietaria de Corea obtienen solo un 0.00–10.33%. Además, construimos una división sintética de 100 problemas utilizando ejemplares de few-shot difíciles y generación dirigida a modos de fallo para explotar la asimetría entre resolver y crear problemas de navegación web. En la división sintética diagnóstica filtrada adversarialmente, el modelo más fuerte alcanza solo un 26.00%, y reportamos esta división por separado como una prueba de estrés dirigida. Publicamos nuestros datos y código de forma abierta.

English

Frontier model evaluations are shifting from foundational capabilities (e.g., instruction following and reasoning) toward compositional, agentic ones, but Korean agentic benchmarks remain scarce. We introduce K-BrowseComp, a web-browsing agent benchmark grounded in Korean contexts, consisting of 400 problems. The 300-problem K-BrowseComp-Verified subset is manually constructed and validated by native Korean speakers. On this subset, frontier LLMs, including GPT-5.5, DeepSeek-V4-Pro, and GLM-5.1, reach only 30.00--45.67\%, a substantial drop from BrowseComp, while Korean LLMs released through Korea's Proprietary AI Foundation Model program obtain only 0.00--10.33\%. We further construct a 100-problem synthetic split using hard few-shot exemplars and failure-mode-targeted generation to exploit the asymmetry between solving and creating web browsing problems. On the adversarially filtered synthetic diagnostic split, the strongest model reaches only 26.00\%, and we report this split separately as a targeted stress test. We publicly release our data and code.