ChatPaper.aiChatPaper

K-BrowseComp: Un benchmark de agente de navegación web fundamentado en contextos coreanos

K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

June 1, 2026
Autores: Nahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim
cs.AI

Resumen

Las evaluaciones de modelos frontera están desplazándose desde capacidades fundamentales (p. ej., seguir instrucciones y razonamiento) hacia capacidades composicionales y agentivas, pero los benchmarks agentivos en coreano siguen siendo escasos. Introducimos K-BrowseComp, un benchmark de agentes de navegación web contextualizado en coreano, compuesto por 400 problemas. El subconjunto de 300 problemas K-BrowseComp-Verified es construido manualmente y validado por hablantes nativos de coreano. En este subconjunto, los LLMs frontera, incluyendo GPT-5.5, DeepSeek-V4-Pro y GLM-5.1, alcanzan solo un 30.00–45.67%, una caída sustancial respecto a BrowseComp, mientras que los LLMs coreanos publicados a través del programa de Modelos de Fundación de IA Propietaria de Corea obtienen solo un 0.00–10.33%. Además, construimos una división sintética de 100 problemas utilizando ejemplares de few-shot difíciles y generación dirigida a modos de fallo para explotar la asimetría entre resolver y crear problemas de navegación web. En la división sintética diagnóstica filtrada adversarialmente, el modelo más fuerte alcanza solo un 26.00%, y reportamos esta división por separado como una prueba de estrés dirigida. Publicamos nuestros datos y código de forma abierta.
English
Frontier model evaluations are shifting from foundational capabilities (e.g., instruction following and reasoning) toward compositional, agentic ones, but Korean agentic benchmarks remain scarce. We introduce K-BrowseComp, a web-browsing agent benchmark grounded in Korean contexts, consisting of 400 problems. The 300-problem K-BrowseComp-Verified subset is manually constructed and validated by native Korean speakers. On this subset, frontier LLMs, including GPT-5.5, DeepSeek-V4-Pro, and GLM-5.1, reach only 30.00--45.67\%, a substantial drop from BrowseComp, while Korean LLMs released through Korea's Proprietary AI Foundation Model program obtain only 0.00--10.33\%. We further construct a 100-problem synthetic split using hard few-shot exemplars and failure-mode-targeted generation to exploit the asymmetry between solving and creating web browsing problems. On the adversarially filtered synthetic diagnostic split, the strongest model reaches only 26.00\%, and we report this split separately as a targeted stress test. We publicly release our data and code.