Open CaptchaWorld: マルチモーダルLLMエージェントのテストとベンチマークのための包括的なWebベースプラットフォーム
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents
May 30, 2025
著者: Yaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen
cs.AI
要旨
CAPTCHAは、現実世界のアプリケーションにおいてウェブエージェントを展開する上で重大なボトルネックとなっており、エンドツーエンドの自動化タスクを完了することをしばしば阻んでいます。現代のマルチモーダルLLMエージェントは、静的な認識タスクにおいて印象的な性能を示していますが、CAPTCHAのようなインタラクティブで多段階の推論課題を処理する能力はほとんど検証されていません。このギャップを埋めるため、私たちはOpen CaptchaWorldを導入します。これは、多様で動的なCAPTCHAパズルを通じて、MLLMを搭載したエージェントの視覚的推論とインタラクション能力を評価するために特別に設計された初のウェブベースのベンチマークおよびプラットフォームです。私たちのベンチマークは、20種類の現代的なCAPTCHAタイプを網羅し、合計225のCAPTCHAを含み、それぞれに新しい指標であるCAPTCHA推論深度を付与しています。この指標は、各パズルを解くために必要な認知および運動ステップの数を定量化します。実験結果は、人間がほぼ完璧なスコアを一貫して達成する一方で、最先端のMLLMエージェントは大きく苦戦し、Browser-Use Openai-o3による成功率は最大でも40.0%であり、人間レベルの性能である93.3%を大きく下回っています。これは、Open CaptchaWorldが、現在のマルチモーダルエージェントの限界を診断し、より堅牢なマルチモーダル推論システムの開発を導くための重要なベンチマークであることを強調しています。コードとデータは以下のURLで利用可能です。
English
CAPTCHAs have been a critical bottleneck for deploying web agents in
real-world applications, often blocking them from completing end-to-end
automation tasks. While modern multimodal LLM agents have demonstrated
impressive performance in static perception tasks, their ability to handle
interactive, multi-step reasoning challenges like CAPTCHAs is largely untested.
To address this gap, we introduce Open CaptchaWorld, the first web-based
benchmark and platform specifically designed to evaluate the visual reasoning
and interaction capabilities of MLLM-powered agents through diverse and dynamic
CAPTCHA puzzles. Our benchmark spans 20 modern CAPTCHA types, totaling 225
CAPTCHAs, annotated with a new metric we propose: CAPTCHA Reasoning Depth,
which quantifies the number of cognitive and motor steps required to solve each
puzzle. Experimental results show that humans consistently achieve near-perfect
scores, state-of-the-art MLLM agents struggle significantly, with success rates
at most 40.0% by Browser-Use Openai-o3, far below human-level performance,
93.3%. This highlights Open CaptchaWorld as a vital benchmark for diagnosing
the limits of current multimodal agents and guiding the development of more
robust multimodal reasoning systems. Code and Data are available at this https
URL.