Open CaptchaWorld: Una Piattaforma Web Completa per il Test e il Benchmarking di Agenti LLM Multimodali
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents
May 30, 2025
Autori: Yaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen
cs.AI
Abstract
I CAPTCHA hanno rappresentato un collo di bottiglia critico per il dispiegamento di agenti web in applicazioni del mondo reale, spesso impedendo loro di completare attività di automazione end-to-end. Sebbene i moderni agenti MLLM multimodali abbiano dimostrato prestazioni impressionanti in compiti di percezione statica, la loro capacità di gestire sfide interattive e di ragionamento multi-step come i CAPTCHA è in gran parte inesplorata. Per colmare questa lacuna, introduciamo Open CaptchaWorld, il primo benchmark e piattaforma web specificamente progettati per valutare le capacità di ragionamento visivo e interazione degli agenti basati su MLLM attraverso una varietà di puzzle CAPTCHA dinamici e diversificati. Il nostro benchmark comprende 20 tipi moderni di CAPTCHA, per un totale di 225 CAPTCHA, annotati con una nuova metrica che proponiamo: CAPTCHA Reasoning Depth, che quantifica il numero di passaggi cognitivi e motori necessari per risolvere ciascun puzzle. I risultati sperimentali mostrano che gli esseri umani raggiungono costantemente punteggi quasi perfetti, mentre gli agenti MLLM all'avanguardia incontrano notevoli difficoltà, con tassi di successo al massimo del 40,0% per Browser-Use Openai-o3, ben al di sotto delle prestazioni umane, pari al 93,3%. Ciò evidenzia Open CaptchaWorld come un benchmark fondamentale per diagnosticare i limiti degli attuali agenti multimodali e guidare lo sviluppo di sistemi di ragionamento multimodale più robusti. Codice e dati sono disponibili al seguente URL: https.
English
CAPTCHAs have been a critical bottleneck for deploying web agents in
real-world applications, often blocking them from completing end-to-end
automation tasks. While modern multimodal LLM agents have demonstrated
impressive performance in static perception tasks, their ability to handle
interactive, multi-step reasoning challenges like CAPTCHAs is largely untested.
To address this gap, we introduce Open CaptchaWorld, the first web-based
benchmark and platform specifically designed to evaluate the visual reasoning
and interaction capabilities of MLLM-powered agents through diverse and dynamic
CAPTCHA puzzles. Our benchmark spans 20 modern CAPTCHA types, totaling 225
CAPTCHAs, annotated with a new metric we propose: CAPTCHA Reasoning Depth,
which quantifies the number of cognitive and motor steps required to solve each
puzzle. Experimental results show that humans consistently achieve near-perfect
scores, state-of-the-art MLLM agents struggle significantly, with success rates
at most 40.0% by Browser-Use Openai-o3, far below human-level performance,
93.3%. This highlights Open CaptchaWorld as a vital benchmark for diagnosing
the limits of current multimodal agents and guiding the development of more
robust multimodal reasoning systems. Code and Data are available at this https
URL.