K-BrowseComp: Бенчмарк веб-агента навигации, основанный на корейских контекстах

Аннотация

Оценки фронтирных моделей смещаются от базовых возможностей (например, следование инструкциям и рассуждение) в сторону композициональных, агентных, однако корейские агентные бенчмарки остаются редкими. Мы представляем K-BrowseComp — бенчмарк веб-агента, ориентированный на корейский контекст, состоящий из 400 задач. Подмножество из 300 задач K-BrowseComp-Verified вручную составлено и проверено носителями корейского языка. На этом подмножестве фронтирные LLM, включая GPT-5.5, DeepSeek-V4-Pro и GLM-5.1, достигают лишь 30,00–45,67%, что значительно ниже показателей BrowseComp, в то время как корейские LLM, выпущенные в рамках программы Фонда корейского искусственного интеллекта, получают лишь 0,00–10,33%. Мы также формируем синтетический раздел из 100 задач, используя сложные немногие примеры и генерацию, нацеленную на типичные сбои, чтобы использовать асимметрию между решением и созданием задач веб-браузинга. На синтетическом диагностическом разделе, прошедшем состязательную фильтрацию, сильнейшая модель достигает лишь 26,00%, и мы сообщаем этот раздел отдельно как целевой стресс-тест. Мы публикуем наши данные и код в открытом доступе.

English

Frontier model evaluations are shifting from foundational capabilities (e.g., instruction following and reasoning) toward compositional, agentic ones, but Korean agentic benchmarks remain scarce. We introduce K-BrowseComp, a web-browsing agent benchmark grounded in Korean contexts, consisting of 400 problems. The 300-problem K-BrowseComp-Verified subset is manually constructed and validated by native Korean speakers. On this subset, frontier LLMs, including GPT-5.5, DeepSeek-V4-Pro, and GLM-5.1, reach only 30.00--45.67\%, a substantial drop from BrowseComp, while Korean LLMs released through Korea's Proprietary AI Foundation Model program obtain only 0.00--10.33\%. We further construct a 100-problem synthetic split using hard few-shot exemplars and failure-mode-targeted generation to exploit the asymmetry between solving and creating web browsing problems. On the adversarially filtered synthetic diagnostic split, the strongest model reaches only 26.00\%, and we report this split separately as a targeted stress test. We publicly release our data and code.