MCA-Bench: Ein multimodaler Benchmark zur Bewertung der CAPTCHA-Robustheit gegenüber VLM-basierten Angriffen
MCA-Bench: A Multimodal Benchmark for Evaluating CAPTCHA Robustness Against VLM-based Attacks
June 6, 2025
Autoren: Zonglin Wu, Yule Xue, Xin Wei, Yiren Song
cs.AI
Zusammenfassung
Während sich automatisierte Angriffstechniken rasant weiterentwickeln, bleiben CAPTCHAs ein entscheidendes Abwehrmechanismus gegen bösartige Bots. Allerdings umfassen bestehende CAPTCHA-Schemata eine Vielzahl von Modalitäten – von statischem verzerrtem Text und verschleierten Bildern bis hin zu interaktiven Klicks, Schiebe-Puzzles und logikbasierten Fragen – doch der Community fehlt nach wie vor ein einheitlicher, groß angelegter, multimodaler Benchmark, um deren Sicherheitsrobustheit rigoros zu bewerten. Um diese Lücke zu schließen, stellen wir MCA-Bench vor, eine umfassende und reproduzierbare Benchmarking-Suite, die heterogene CAPTCHA-Typen in ein einheitliches Bewertungsprotokoll integriert. Mithilfe eines gemeinsamen Vision-Language-Modell-Backbones feintunen wir spezialisierte Cracking-Agenten für jede CAPTCHA-Kategorie, wodurch konsistente, cross-modale Bewertungen ermöglicht werden. Umfangreiche Experimente zeigen, dass MCA-Bench effektiv das Schwachstellenspektrum moderner CAPTCHA-Designs unter verschiedenen Angriffsszenarien abbildet und erstmals eine quantitative Analyse bietet, wie Herausforderungskomplexität, Interaktionstiefe und Modelllösbarkeit zusammenhängen. Basierend auf diesen Erkenntnissen schlagen wir drei umsetzbare Designprinzipien vor und identifizieren zentrale offene Herausforderungen, wodurch die Grundlage für systematische CAPTCHA-Härtung, faires Benchmarking und breitere Community-Zusammenarbeit gelegt wird. Datensätze und Code sind online verfügbar.
English
As automated attack techniques rapidly advance, CAPTCHAs remain a critical
defense mechanism against malicious bots. However, existing CAPTCHA schemes
encompass a diverse range of modalities -- from static distorted text and
obfuscated images to interactive clicks, sliding puzzles, and logic-based
questions -- yet the community still lacks a unified, large-scale, multimodal
benchmark to rigorously evaluate their security robustness. To address this
gap, we introduce MCA-Bench, a comprehensive and reproducible benchmarking
suite that integrates heterogeneous CAPTCHA types into a single evaluation
protocol. Leveraging a shared vision-language model backbone, we fine-tune
specialized cracking agents for each CAPTCHA category, enabling consistent,
cross-modal assessments. Extensive experiments reveal that MCA-Bench
effectively maps the vulnerability spectrum of modern CAPTCHA designs under
varied attack settings, and crucially offers the first quantitative analysis of
how challenge complexity, interaction depth, and model solvability interrelate.
Based on these findings, we propose three actionable design principles and
identify key open challenges, laying the groundwork for systematic CAPTCHA
hardening, fair benchmarking, and broader community collaboration. Datasets and
code are available online.