ChatPaper.aiChatPaper

K-BrowseComp: Um Benchmark para Agentes de Navegação na Web Fundamentado em Contextos Coreanos

K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

June 1, 2026
Autores: Nahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim
cs.AI

Resumo

As avaliações de modelos de fronteira estão se deslocando de capacidades fundamentais (como seguir instruções e raciocínio) para capacidades composicionais e agentivas, mas benchmarks agentivos coreanos ainda são escassos. Apresentamos o K-BrowseComp, um benchmark de agente de navegação na web contextualizado ao ambiente coreano, composto por 400 problemas. O subconjunto K-BrowseComp-Verified, com 300 problemas, foi manualmente construído e validado por falantes nativos de coreano. Nesse subconjunto, LLMs de fronteira, incluindo GPT-5.5, DeepSeek-V4-Pro e GLM-5.1, alcançam apenas 30,00–45,67%, uma queda substancial em relação ao BrowseComp, enquanto LLMs coreanos lançados por meio do programa Korea's Proprietary AI Foundation Model obtêm apenas 0,00–10,33%. Construímos ainda uma divisão sintética de 100 problemas usando exemplares few-shot difíceis e geração direcionada a modos de falha, a fim de explorar a assimetria entre resolver e criar problemas de navegação na web. Na divisão sintética de diagnóstico filtrada adversarialmente, o modelo mais forte atinge apenas 26,00%, e reportamos essa divisão separadamente como um teste de estresse direcionado. Disponibilizamos publicamente nossos dados e código.
English
Frontier model evaluations are shifting from foundational capabilities (e.g., instruction following and reasoning) toward compositional, agentic ones, but Korean agentic benchmarks remain scarce. We introduce K-BrowseComp, a web-browsing agent benchmark grounded in Korean contexts, consisting of 400 problems. The 300-problem K-BrowseComp-Verified subset is manually constructed and validated by native Korean speakers. On this subset, frontier LLMs, including GPT-5.5, DeepSeek-V4-Pro, and GLM-5.1, reach only 30.00--45.67\%, a substantial drop from BrowseComp, while Korean LLMs released through Korea's Proprietary AI Foundation Model program obtain only 0.00--10.33\%. We further construct a 100-problem synthetic split using hard few-shot exemplars and failure-mode-targeted generation to exploit the asymmetry between solving and creating web browsing problems. On the adversarially filtered synthetic diagnostic split, the strongest model reaches only 26.00\%, and we report this split separately as a targeted stress test. We publicly release our data and code.