Open CaptchaWorld: 멀티모달 LLM 에이전트 테스트 및 벤치마킹을 위한 포괄적인 웹 기반 플랫폼
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents
May 30, 2025
저자: Yaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen
cs.AI
초록
CAPTCHA는 실제 애플리케이션에서 웹 에이전트를 배포하는 데 있어 중요한 병목 현상으로 작용하며, 종종 엔드투엔드 자동화 작업을 완료하는 것을 방해합니다. 최신 멀티모달 LLM 에이전트는 정적인 인식 작업에서 인상적인 성능을 보여주었지만, CAPTCHA와 같은 상호작용적이고 다단계 추론이 필요한 과제를 처리하는 능력은 대부분 검증되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 다양한 동적 CAPTCHA 퍼즐을 통해 MLLM 기반 에이전트의 시각적 추론 및 상호작용 능력을 평가하기 위해 특별히 설계된 첫 번째 웹 기반 벤치마크 및 플랫폼인 Open CaptchaWorld를 소개합니다. 우리의 벤치마크는 20가지 현대적인 CAPTCHA 유형을 아우르며, 총 225개의 CAPTCHA로 구성되어 있으며, 각 퍼즐을 해결하는 데 필요한 인지 및 운동 단계의 수를 정량화하는 새로운 메트릭인 CAPTCHA Reasoning Depth로 주석이 달려 있습니다. 실험 결과, 인간은 거의 완벽에 가까운 점수를 지속적으로 달성하는 반면, 최첨단 MLLM 에이전트는 최대 40.0%의 성공률로 상당히 어려움을 겪으며, 이는 인간 수준의 성능인 93.3%에 훨씬 못 미치는 수준입니다. 이는 Open CaptchaWorld가 현재의 멀티모달 에이전트의 한계를 진단하고 더 강력한 멀티모달 추론 시스템의 개발을 안내하는 중요한 벤치마크임을 강조합니다. 코드와 데이터는 이 https URL에서 확인할 수 있습니다.
English
CAPTCHAs have been a critical bottleneck for deploying web agents in
real-world applications, often blocking them from completing end-to-end
automation tasks. While modern multimodal LLM agents have demonstrated
impressive performance in static perception tasks, their ability to handle
interactive, multi-step reasoning challenges like CAPTCHAs is largely untested.
To address this gap, we introduce Open CaptchaWorld, the first web-based
benchmark and platform specifically designed to evaluate the visual reasoning
and interaction capabilities of MLLM-powered agents through diverse and dynamic
CAPTCHA puzzles. Our benchmark spans 20 modern CAPTCHA types, totaling 225
CAPTCHAs, annotated with a new metric we propose: CAPTCHA Reasoning Depth,
which quantifies the number of cognitive and motor steps required to solve each
puzzle. Experimental results show that humans consistently achieve near-perfect
scores, state-of-the-art MLLM agents struggle significantly, with success rates
at most 40.0% by Browser-Use Openai-o3, far below human-level performance,
93.3%. This highlights Open CaptchaWorld as a vital benchmark for diagnosing
the limits of current multimodal agents and guiding the development of more
robust multimodal reasoning systems. Code and Data are available at this https
URL.