MCA-Bench: Een Multimodaal Benchmark voor het Evalueren van CAPTCHA-Robuustheid tegen VLM-gebaseerde Aanvallen
MCA-Bench: A Multimodal Benchmark for Evaluating CAPTCHA Robustness Against VLM-based Attacks
June 6, 2025
Auteurs: Zonglin Wu, Yule Xue, Xin Wei, Yiren Song
cs.AI
Samenvatting
Naarmate geautomatiseerde aanvalstechnieken zich snel ontwikkelen, blijven CAPTCHA's een cruciaal verdedigingsmechanisme tegen kwaadaardige bots. Bestaande CAPTCHA-systemen omvatten echter een breed scala aan modaliteiten – van statische vervormde tekst en verborgen afbeeldingen tot interactieve klikken, schuifpuzzels en logica-gebaseerde vragen – maar de gemeenschap beschikt nog steeds niet over een uniforme, grootschalige, multimodale benchmark om hun beveiligingsrobuustheid rigoureus te evalueren. Om dit gat te dichten, introduceren we MCA-Bench, een uitgebreide en reproduceerbare benchmarkingsuite die heterogene CAPTCHA-typen integreert in een enkel evaluatieprotocol. Door gebruik te maken van een gedeeld vision-language model, fine-tunen we gespecialiseerde kraakagentschappen voor elke CAPTCHA-categorie, wat consistente, cross-modale beoordelingen mogelijk maakt. Uitgebreide experimenten tonen aan dat MCA-Bench effectief het kwetsbaarheidsspectrum van moderne CAPTCHA-ontwerpen in kaart brengt onder verschillende aanvalsinstellingen, en cruciaal biedt het de eerste kwantitatieve analyse van hoe uitdagingscomplexiteit, interactiediepte en modeloplosbaarheid met elkaar samenhangen. Op basis van deze bevindingen stellen we drie praktische ontwerp principes voor en identificeren we belangrijke open uitdagingen, waarmee de basis wordt gelegd voor systematische CAPTCHA-verharding, eerlijke benchmarking en bredere gemeenschapssamenwerking. Datasets en code zijn online beschikbaar.
English
As automated attack techniques rapidly advance, CAPTCHAs remain a critical
defense mechanism against malicious bots. However, existing CAPTCHA schemes
encompass a diverse range of modalities -- from static distorted text and
obfuscated images to interactive clicks, sliding puzzles, and logic-based
questions -- yet the community still lacks a unified, large-scale, multimodal
benchmark to rigorously evaluate their security robustness. To address this
gap, we introduce MCA-Bench, a comprehensive and reproducible benchmarking
suite that integrates heterogeneous CAPTCHA types into a single evaluation
protocol. Leveraging a shared vision-language model backbone, we fine-tune
specialized cracking agents for each CAPTCHA category, enabling consistent,
cross-modal assessments. Extensive experiments reveal that MCA-Bench
effectively maps the vulnerability spectrum of modern CAPTCHA designs under
varied attack settings, and crucially offers the first quantitative analysis of
how challenge complexity, interaction depth, and model solvability interrelate.
Based on these findings, we propose three actionable design principles and
identify key open challenges, laying the groundwork for systematic CAPTCHA
hardening, fair benchmarking, and broader community collaboration. Datasets and
code are available online.