Open CaptchaWorld: Комплексная веб-платформа для тестирования и бенчмаркинга мультимодальных агентов на основе больших языковых моделей
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents
May 30, 2025
Авторы: Yaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen
cs.AI
Аннотация
CAPTCHA представляют собой критическое препятствие для развертывания веб-агентов в реальных приложениях, часто блокируя их выполнение сквозных задач автоматизации. Хотя современные мультимодальные агенты на основе LLM продемонстрировали впечатляющие результаты в статических задачах восприятия, их способность справляться с интерактивными, многошаговыми задачами, такими как CAPTCHA, остается в значительной степени неисследованной. Чтобы устранить этот пробел, мы представляем Open CaptchaWorld — первый веб-ориентированный бенчмарк и платформу, специально разработанные для оценки визуального мышления и интерактивных способностей агентов на основе MLLM с помощью разнообразных и динамичных CAPTCHA-головоломок. Наш бенчмарк охватывает 20 современных типов CAPTCHA, включая 225 задач, аннотированных с использованием нового метрического показателя, который мы предлагаем: CAPTCHA Reasoning Depth (Глубина рассуждений CAPTCHA), который количественно определяет количество когнитивных и моторных шагов, необходимых для решения каждой головоломки. Экспериментальные результаты показывают, что люди стабильно достигают почти идеальных показателей, тогда как передовые агенты на основе MLLM испытывают значительные трудности, с показателями успеха не более 40,0% у Browser-Use Openai-o3, что значительно ниже человеческого уровня в 93,3%. Это подчеркивает Open CaptchaWorld как важный бенчмарк для диагностики ограничений современных мультимодальных агентов и направления разработки более устойчивых систем мультимодального мышления. Код и данные доступны по ссылке: [указанный URL].
English
CAPTCHAs have been a critical bottleneck for deploying web agents in
real-world applications, often blocking them from completing end-to-end
automation tasks. While modern multimodal LLM agents have demonstrated
impressive performance in static perception tasks, their ability to handle
interactive, multi-step reasoning challenges like CAPTCHAs is largely untested.
To address this gap, we introduce Open CaptchaWorld, the first web-based
benchmark and platform specifically designed to evaluate the visual reasoning
and interaction capabilities of MLLM-powered agents through diverse and dynamic
CAPTCHA puzzles. Our benchmark spans 20 modern CAPTCHA types, totaling 225
CAPTCHAs, annotated with a new metric we propose: CAPTCHA Reasoning Depth,
which quantifies the number of cognitive and motor steps required to solve each
puzzle. Experimental results show that humans consistently achieve near-perfect
scores, state-of-the-art MLLM agents struggle significantly, with success rates
at most 40.0% by Browser-Use Openai-o3, far below human-level performance,
93.3%. This highlights Open CaptchaWorld as a vital benchmark for diagnosing
the limits of current multimodal agents and guiding the development of more
robust multimodal reasoning systems. Code and Data are available at this https
URL.