Open CaptchaWorld: Uma Plataforma Web Abrangente para Testes e Avaliação de Agentes Multimodais de LLM

Resumo

Os CAPTCHAs têm sido um gargalo crítico para a implantação de agentes web em aplicações do mundo real, frequentemente impedindo-os de concluir tarefas de automação de ponta a ponta. Embora os modernos agentes de LLM multimodal tenham demonstrado desempenho impressionante em tarefas de percepção estática, sua capacidade de lidar com desafios interativos e de raciocínio em múltiplas etapas, como os CAPTCHAs, permanece amplamente não testada. Para abordar essa lacuna, apresentamos o Open CaptchaWorld, o primeiro benchmark e plataforma baseados na web especificamente projetados para avaliar as capacidades de raciocínio visual e interação de agentes alimentados por MLLM por meio de diversos e dinâmicos quebra-cabeças CAPTCHA. Nosso benchmark abrange 20 tipos modernos de CAPTCHA, totalizando 225 CAPTCHAs, anotados com uma nova métrica que propomos: Profundidade de Raciocínio CAPTCHA, que quantifica o número de etapas cognitivas e motoras necessárias para resolver cada quebra-cabeça. Os resultados experimentais mostram que os humanos consistentemente atingem pontuações quase perfeitas, enquanto os agentes MLLM de última geração lutam significativamente, com taxas de sucesso de no máximo 40,0% pelo Browser-Use Openai-o3, muito abaixo do desempenho humano de 93,3%. Isso destaca o Open CaptchaWorld como um benchmark vital para diagnosticar os limites dos atuais agentes multimodais e orientar o desenvolvimento de sistemas de raciocínio multimodal mais robustos. Código e Dados estão disponíveis neste URL https.

English

CAPTCHAs have been a critical bottleneck for deploying web agents in real-world applications, often blocking them from completing end-to-end automation tasks. While modern multimodal LLM agents have demonstrated impressive performance in static perception tasks, their ability to handle interactive, multi-step reasoning challenges like CAPTCHAs is largely untested. To address this gap, we introduce Open CaptchaWorld, the first web-based benchmark and platform specifically designed to evaluate the visual reasoning and interaction capabilities of MLLM-powered agents through diverse and dynamic CAPTCHA puzzles. Our benchmark spans 20 modern CAPTCHA types, totaling 225 CAPTCHAs, annotated with a new metric we propose: CAPTCHA Reasoning Depth, which quantifies the number of cognitive and motor steps required to solve each puzzle. Experimental results show that humans consistently achieve near-perfect scores, state-of-the-art MLLM agents struggle significantly, with success rates at most 40.0% by Browser-Use Openai-o3, far below human-level performance, 93.3%. This highlights Open CaptchaWorld as a vital benchmark for diagnosing the limits of current multimodal agents and guiding the development of more robust multimodal reasoning systems. Code and Data are available at this https URL.

Open CaptchaWorld: Uma Plataforma Web Abrangente para Testes e Avaliação de Agentes Multimodais de LLM

Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

Resumo

Support