K-BrowseComp: Um Benchmark para Agentes de Navegação na Web Fundamentado em Contextos Coreanos

Resumo

As avaliações de modelos de fronteira estão se deslocando de capacidades fundamentais (como seguir instruções e raciocínio) para capacidades composicionais e agentivas, mas benchmarks agentivos coreanos ainda são escassos. Apresentamos o K-BrowseComp, um benchmark de agente de navegação na web contextualizado ao ambiente coreano, composto por 400 problemas. O subconjunto K-BrowseComp-Verified, com 300 problemas, foi manualmente construído e validado por falantes nativos de coreano. Nesse subconjunto, LLMs de fronteira, incluindo GPT-5.5, DeepSeek-V4-Pro e GLM-5.1, alcançam apenas 30,00–45,67%, uma queda substancial em relação ao BrowseComp, enquanto LLMs coreanos lançados por meio do programa Korea's Proprietary AI Foundation Model obtêm apenas 0,00–10,33%. Construímos ainda uma divisão sintética de 100 problemas usando exemplares few-shot difíceis e geração direcionada a modos de falha, a fim de explorar a assimetria entre resolver e criar problemas de navegação na web. Na divisão sintética de diagnóstico filtrada adversarialmente, o modelo mais forte atinge apenas 26,00%, e reportamos essa divisão separadamente como um teste de estresse direcionado. Disponibilizamos publicamente nossos dados e código.

English

Frontier model evaluations are shifting from foundational capabilities (e.g., instruction following and reasoning) toward compositional, agentic ones, but Korean agentic benchmarks remain scarce. We introduce K-BrowseComp, a web-browsing agent benchmark grounded in Korean contexts, consisting of 400 problems. The 300-problem K-BrowseComp-Verified subset is manually constructed and validated by native Korean speakers. On this subset, frontier LLMs, including GPT-5.5, DeepSeek-V4-Pro, and GLM-5.1, reach only 30.00--45.67\%, a substantial drop from BrowseComp, while Korean LLMs released through Korea's Proprietary AI Foundation Model program obtain only 0.00--10.33\%. We further construct a 100-problem synthetic split using hard few-shot exemplars and failure-mode-targeted generation to exploit the asymmetry between solving and creating web browsing problems. On the adversarially filtered synthetic diagnostic split, the strongest model reaches only 26.00\%, and we report this split separately as a targeted stress test. We publicly release our data and code.