K-BrowseComp: Бенчмарк веб-агента навигации, основанный на корейских контекстах
K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts
June 1, 2026
Авторы: Nahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim
cs.AI
Аннотация
Оценки фронтирных моделей смещаются от базовых возможностей (например, следование инструкциям и рассуждение) в сторону композициональных, агентных, однако корейские агентные бенчмарки остаются редкими. Мы представляем K-BrowseComp — бенчмарк веб-агента, ориентированный на корейский контекст, состоящий из 400 задач. Подмножество из 300 задач K-BrowseComp-Verified вручную составлено и проверено носителями корейского языка. На этом подмножестве фронтирные LLM, включая GPT-5.5, DeepSeek-V4-Pro и GLM-5.1, достигают лишь 30,00–45,67%, что значительно ниже показателей BrowseComp, в то время как корейские LLM, выпущенные в рамках программы Фонда корейского искусственного интеллекта, получают лишь 0,00–10,33%. Мы также формируем синтетический раздел из 100 задач, используя сложные немногие примеры и генерацию, нацеленную на типичные сбои, чтобы использовать асимметрию между решением и созданием задач веб-браузинга. На синтетическом диагностическом разделе, прошедшем состязательную фильтрацию, сильнейшая модель достигает лишь 26,00%, и мы сообщаем этот раздел отдельно как целевой стресс-тест. Мы публикуем наши данные и код в открытом доступе.
English
Frontier model evaluations are shifting from foundational capabilities (e.g., instruction following and reasoning) toward compositional, agentic ones, but Korean agentic benchmarks remain scarce. We introduce K-BrowseComp, a web-browsing agent benchmark grounded in Korean contexts, consisting of 400 problems. The 300-problem K-BrowseComp-Verified subset is manually constructed and validated by native Korean speakers. On this subset, frontier LLMs, including GPT-5.5, DeepSeek-V4-Pro, and GLM-5.1, reach only 30.00--45.67\%, a substantial drop from BrowseComp, while Korean LLMs released through Korea's Proprietary AI Foundation Model program obtain only 0.00--10.33\%. We further construct a 100-problem synthetic split using hard few-shot exemplars and failure-mode-targeted generation to exploit the asymmetry between solving and creating web browsing problems. On the adversarially filtered synthetic diagnostic split, the strongest model reaches only 26.00\%, and we report this split separately as a targeted stress test. We publicly release our data and code.