Open CaptchaWorld: Eine umfassende webbasierte Plattform zur Testung und Benchmarking von multimodalen LLM-Agenten

Zusammenfassung

CAPTCHAs stellen ein entscheidendes Hindernis für den Einsatz von Web-Agenten in realen Anwendungen dar und blockieren sie häufig bei der Durchführung von End-to-End-Automatisierungsaufgaben. Während moderne multimodale LLM-Agenten beeindruckende Leistungen bei statischen Wahrnehmungsaufgaben gezeigt haben, ist ihre Fähigkeit, interaktive, mehrstufige Denkherausforderungen wie CAPTCHAs zu bewältigen, weitgehend unerprobt. Um diese Lücke zu schließen, stellen wir Open CaptchaWorld vor, den ersten webbasierten Benchmark und eine Plattform, die speziell entwickelt wurde, um die visuellen Denk- und Interaktionsfähigkeiten von MLLM-gestützten Agenten durch vielfältige und dynamische CAPTCHA-Rätsel zu bewerten. Unser Benchmark umfasst 20 moderne CAPTCHA-Typen mit insgesamt 225 CAPTCHAs, die mit einer neuen Metrik versehen sind, die wir vorschlagen: CAPTCHA Reasoning Depth, die die Anzahl der kognitiven und motorischen Schritte quantifiziert, die zur Lösung jedes Rätsels erforderlich sind. Experimentelle Ergebnisse zeigen, dass Menschen durchweg nahezu perfekte Werte erreichen, während state-of-the-art MLLM-Agenten erheblich Schwierigkeiten haben, mit Erfolgsquoten von höchstens 40,0 % bei Browser-Use Openai-o3, weit unter dem menschlichen Leistungsniveau von 93,3 %. Dies unterstreicht Open CaptchaWorld als einen entscheidenden Benchmark zur Diagnose der Grenzen aktueller multimodaler Agenten und zur Entwicklung robusterer multimodaler Denksysteme. Code und Daten sind unter dieser HTTPS-URL verfügbar.

English

CAPTCHAs have been a critical bottleneck for deploying web agents in real-world applications, often blocking them from completing end-to-end automation tasks. While modern multimodal LLM agents have demonstrated impressive performance in static perception tasks, their ability to handle interactive, multi-step reasoning challenges like CAPTCHAs is largely untested. To address this gap, we introduce Open CaptchaWorld, the first web-based benchmark and platform specifically designed to evaluate the visual reasoning and interaction capabilities of MLLM-powered agents through diverse and dynamic CAPTCHA puzzles. Our benchmark spans 20 modern CAPTCHA types, totaling 225 CAPTCHAs, annotated with a new metric we propose: CAPTCHA Reasoning Depth, which quantifies the number of cognitive and motor steps required to solve each puzzle. Experimental results show that humans consistently achieve near-perfect scores, state-of-the-art MLLM agents struggle significantly, with success rates at most 40.0% by Browser-Use Openai-o3, far below human-level performance, 93.3%. This highlights Open CaptchaWorld as a vital benchmark for diagnosing the limits of current multimodal agents and guiding the development of more robust multimodal reasoning systems. Code and Data are available at this https URL.