K-BrowseComp : Un benchmark d'agent de navigation web ancré dans des contextes coréens.

Résumé

Les évaluations des modèles de frontière passent des capacités fondamentales (par exemple, le suivi d'instructions et le raisonnement) vers des capacités compositionnelles et agentiques, mais les benchmarks agentiques coréens restent rares. Nous présentons K-BrowseComp, un benchmark d'agent de navigation web ancré dans des contextes coréens, comprenant 400 problèmes. Le sous-ensemble K-BrowseComp-Verified de 300 problèmes est construit manuellement et validé par des locuteurs natifs coréens. Sur ce sous-ensemble, les LLM de frontière, y compris GPT-5.5, DeepSeek-V4-Pro et GLM-5.1, n'atteignent que 30,00–45,67 %, une baisse substantielle par rapport à BrowseComp, tandis que les LLM coréens publiés via le programme Proprietary AI Foundation Model de la Corée n'obtiennent que 0,00–10,33 %. Nous construisons en outre une division synthétique de 100 problèmes en utilisant des exemples à quelques tentatives difficiles et une génération ciblée sur les modes d'échec afin d'exploiter l'asymétrie entre la résolution et la création de problèmes de navigation web. Sur la division diagnostique synthétique filtrée de manière adversaire, le modèle le plus performant n'atteint que 26,00 %, et nous rapportons cette division séparément en tant que test de stress ciblé. Nous publions nos données et notre code en libre accès.

English

Frontier model evaluations are shifting from foundational capabilities (e.g., instruction following and reasoning) toward compositional, agentic ones, but Korean agentic benchmarks remain scarce. We introduce K-BrowseComp, a web-browsing agent benchmark grounded in Korean contexts, consisting of 400 problems. The 300-problem K-BrowseComp-Verified subset is manually constructed and validated by native Korean speakers. On this subset, frontier LLMs, including GPT-5.5, DeepSeek-V4-Pro, and GLM-5.1, reach only 30.00--45.67\%, a substantial drop from BrowseComp, while Korean LLMs released through Korea's Proprietary AI Foundation Model program obtain only 0.00--10.33\%. We further construct a 100-problem synthetic split using hard few-shot exemplars and failure-mode-targeted generation to exploit the asymmetry between solving and creating web browsing problems. On the adversarially filtered synthetic diagnostic split, the strongest model reaches only 26.00\%, and we report this split separately as a targeted stress test. We publicly release our data and code.