Open CaptchaWorld: Uma Plataforma Web Abrangente para Testes e Avaliação de Agentes Multimodais de LLM
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents
May 30, 2025
Autores: Yaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen
cs.AI
Resumo
Os CAPTCHAs têm sido um gargalo crítico para a implantação de agentes web em aplicações do mundo real, frequentemente impedindo-os de concluir tarefas de automação de ponta a ponta. Embora os modernos agentes de LLM multimodal tenham demonstrado desempenho impressionante em tarefas de percepção estática, sua capacidade de lidar com desafios interativos e de raciocínio em múltiplas etapas, como os CAPTCHAs, permanece amplamente não testada. Para abordar essa lacuna, apresentamos o Open CaptchaWorld, o primeiro benchmark e plataforma baseados na web especificamente projetados para avaliar as capacidades de raciocínio visual e interação de agentes alimentados por MLLM por meio de diversos e dinâmicos quebra-cabeças CAPTCHA. Nosso benchmark abrange 20 tipos modernos de CAPTCHA, totalizando 225 CAPTCHAs, anotados com uma nova métrica que propomos: Profundidade de Raciocínio CAPTCHA, que quantifica o número de etapas cognitivas e motoras necessárias para resolver cada quebra-cabeça. Os resultados experimentais mostram que os humanos consistentemente atingem pontuações quase perfeitas, enquanto os agentes MLLM de última geração lutam significativamente, com taxas de sucesso de no máximo 40,0% pelo Browser-Use Openai-o3, muito abaixo do desempenho humano de 93,3%. Isso destaca o Open CaptchaWorld como um benchmark vital para diagnosticar os limites dos atuais agentes multimodais e orientar o desenvolvimento de sistemas de raciocínio multimodal mais robustos. Código e Dados estão disponíveis neste URL https.
English
CAPTCHAs have been a critical bottleneck for deploying web agents in
real-world applications, often blocking them from completing end-to-end
automation tasks. While modern multimodal LLM agents have demonstrated
impressive performance in static perception tasks, their ability to handle
interactive, multi-step reasoning challenges like CAPTCHAs is largely untested.
To address this gap, we introduce Open CaptchaWorld, the first web-based
benchmark and platform specifically designed to evaluate the visual reasoning
and interaction capabilities of MLLM-powered agents through diverse and dynamic
CAPTCHA puzzles. Our benchmark spans 20 modern CAPTCHA types, totaling 225
CAPTCHAs, annotated with a new metric we propose: CAPTCHA Reasoning Depth,
which quantifies the number of cognitive and motor steps required to solve each
puzzle. Experimental results show that humans consistently achieve near-perfect
scores, state-of-the-art MLLM agents struggle significantly, with success rates
at most 40.0% by Browser-Use Openai-o3, far below human-level performance,
93.3%. This highlights Open CaptchaWorld as a vital benchmark for diagnosing
the limits of current multimodal agents and guiding the development of more
robust multimodal reasoning systems. Code and Data are available at this https
URL.