K-BrowseComp: Ein Benchmark für Web-Browsing-Agenten, basierend auf koreanischen Kontexten

Zusammenfassung

Die Bewertung von Grenzmodellen verlagert sich von grundlegenden Fähigkeiten (z. B. Befolgungsfähigkeit und logisches Denken) hin zu kompositionalen, agentischen Fähigkeiten, doch koreanische agentische Benchmarks sind nach wie vor rar. Wir stellen K-BrowseComp vor, einen auf das Browsen im Web ausgerichteten Agenten-Benchmark, der im koreanischen Kontext verankert ist und aus 400 Aufgaben besteht. Die 300 Aufgaben umfassende Teilmenge K-BrowseComp-Verified wurde manuell von muttersprachlichen Koreanern erstellt und validiert. In dieser Teilmenge erreichen Grenzmodelle wie GPT-5.5, DeepSeek-V4-Pro und GLM-5.1 lediglich 30,00–45,67 % – ein deutlicher Rückgang gegenüber BrowseComp – während koreanische LLMs, die über das südkoreanische Programm für proprietäre KI-Basismodelle (Korea’s Proprietary AI Foundation Model program) veröffentlicht wurden, nur 0,00–10,33 % erzielen. Darüber hinaus konstruieren wir eine synthetische Teilmenge mit 100 Aufgaben unter Verwendung harter Few-Shot-Beispiele und einer auf Fehlermodi abzielenden Generierung, um die Asymmetrie zwischen dem Lösen und dem Erstellen von Web-Browsing-Aufgaben auszunutzen. Auf der adversariell gefilterten synthetischen Diagnoseteilmenge erreicht das stärkste Modell nur 26,00 %; wir weisen diese Teilmenge separat als gezielten Stresstest aus. Wir veröffentlichen unsere Daten und unseren Code öffentlich.

English

Frontier model evaluations are shifting from foundational capabilities (e.g., instruction following and reasoning) toward compositional, agentic ones, but Korean agentic benchmarks remain scarce. We introduce K-BrowseComp, a web-browsing agent benchmark grounded in Korean contexts, consisting of 400 problems. The 300-problem K-BrowseComp-Verified subset is manually constructed and validated by native Korean speakers. On this subset, frontier LLMs, including GPT-5.5, DeepSeek-V4-Pro, and GLM-5.1, reach only 30.00--45.67\%, a substantial drop from BrowseComp, while Korean LLMs released through Korea's Proprietary AI Foundation Model program obtain only 0.00--10.33\%. We further construct a 100-problem synthetic split using hard few-shot exemplars and failure-mode-targeted generation to exploit the asymmetry between solving and creating web browsing problems. On the adversarially filtered synthetic diagnostic split, the strongest model reaches only 26.00\%, and we report this split separately as a targeted stress test. We publicly release our data and code.