ChatPaper.aiChatPaper

Open CaptchaWorld: マルチモーダルLLMエージェントのテストとベンチマークのための包括的なWebベースプラットフォーム

Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

May 30, 2025
著者: Yaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen
cs.AI

要旨

CAPTCHAは、現実世界のアプリケーションにおいてウェブエージェントを展開する上で重大なボトルネックとなっており、エンドツーエンドの自動化タスクを完了することをしばしば阻んでいます。現代のマルチモーダルLLMエージェントは、静的な認識タスクにおいて印象的な性能を示していますが、CAPTCHAのようなインタラクティブで多段階の推論課題を処理する能力はほとんど検証されていません。このギャップを埋めるため、私たちはOpen CaptchaWorldを導入します。これは、多様で動的なCAPTCHAパズルを通じて、MLLMを搭載したエージェントの視覚的推論とインタラクション能力を評価するために特別に設計された初のウェブベースのベンチマークおよびプラットフォームです。私たちのベンチマークは、20種類の現代的なCAPTCHAタイプを網羅し、合計225のCAPTCHAを含み、それぞれに新しい指標であるCAPTCHA推論深度を付与しています。この指標は、各パズルを解くために必要な認知および運動ステップの数を定量化します。実験結果は、人間がほぼ完璧なスコアを一貫して達成する一方で、最先端のMLLMエージェントは大きく苦戦し、Browser-Use Openai-o3による成功率は最大でも40.0%であり、人間レベルの性能である93.3%を大きく下回っています。これは、Open CaptchaWorldが、現在のマルチモーダルエージェントの限界を診断し、より堅牢なマルチモーダル推論システムの開発を導くための重要なベンチマークであることを強調しています。コードとデータは以下のURLで利用可能です。
English
CAPTCHAs have been a critical bottleneck for deploying web agents in real-world applications, often blocking them from completing end-to-end automation tasks. While modern multimodal LLM agents have demonstrated impressive performance in static perception tasks, their ability to handle interactive, multi-step reasoning challenges like CAPTCHAs is largely untested. To address this gap, we introduce Open CaptchaWorld, the first web-based benchmark and platform specifically designed to evaluate the visual reasoning and interaction capabilities of MLLM-powered agents through diverse and dynamic CAPTCHA puzzles. Our benchmark spans 20 modern CAPTCHA types, totaling 225 CAPTCHAs, annotated with a new metric we propose: CAPTCHA Reasoning Depth, which quantifies the number of cognitive and motor steps required to solve each puzzle. Experimental results show that humans consistently achieve near-perfect scores, state-of-the-art MLLM agents struggle significantly, with success rates at most 40.0% by Browser-Use Openai-o3, far below human-level performance, 93.3%. This highlights Open CaptchaWorld as a vital benchmark for diagnosing the limits of current multimodal agents and guiding the development of more robust multimodal reasoning systems. Code and Data are available at this https URL.
PDF212June 2, 2025