MCA-Bench : Un Benchmark Multimodal pour Évaluer la Robustesse des CAPTCHA face aux Attaques Basées sur les VLM
MCA-Bench: A Multimodal Benchmark for Evaluating CAPTCHA Robustness Against VLM-based Attacks
June 6, 2025
Auteurs: Zonglin Wu, Yule Xue, Xin Wei, Yiren Song
cs.AI
Résumé
Alors que les techniques d'attaque automatisées progressent rapidement, les CAPTCHA restent un mécanisme de défense essentiel contre les bots malveillants. Cependant, les schémas de CAPTCHA existants englobent une gamme variée de modalités — allant du texte statique déformé et des images obscurcies aux clics interactifs, puzzles glissants et questions basées sur la logique — mais la communauté manque encore d'un benchmark unifié, à grande échelle et multimodal pour évaluer rigoureusement leur robustesse en matière de sécurité. Pour combler cette lacune, nous introduisons MCA-Bench, une suite de benchmarking complète et reproductible qui intègre des types hétérogènes de CAPTCHA dans un protocole d'évaluation unique. En exploitant un modèle de base partagé de vision-langage, nous affinons des agents de craquage spécialisés pour chaque catégorie de CAPTCHA, permettant des évaluations cohérentes et intermodales. Des expériences approfondies révèlent que MCA-Bench cartographie efficacement le spectre de vulnérabilité des conceptions modernes de CAPTCHA dans divers contextes d'attaque, et offre surtout la première analyse quantitative de la manière dont la complexité des défis, la profondeur de l'interaction et la résolvabilité des modèles sont interconnectées. Sur la base de ces résultats, nous proposons trois principes de conception actionnables et identifions les principaux défis ouverts, jetant ainsi les bases pour un renforcement systématique des CAPTCHA, un benchmarking équitable et une collaboration communautaire élargie. Les jeux de données et le code sont disponibles en ligne.
English
As automated attack techniques rapidly advance, CAPTCHAs remain a critical
defense mechanism against malicious bots. However, existing CAPTCHA schemes
encompass a diverse range of modalities -- from static distorted text and
obfuscated images to interactive clicks, sliding puzzles, and logic-based
questions -- yet the community still lacks a unified, large-scale, multimodal
benchmark to rigorously evaluate their security robustness. To address this
gap, we introduce MCA-Bench, a comprehensive and reproducible benchmarking
suite that integrates heterogeneous CAPTCHA types into a single evaluation
protocol. Leveraging a shared vision-language model backbone, we fine-tune
specialized cracking agents for each CAPTCHA category, enabling consistent,
cross-modal assessments. Extensive experiments reveal that MCA-Bench
effectively maps the vulnerability spectrum of modern CAPTCHA designs under
varied attack settings, and crucially offers the first quantitative analysis of
how challenge complexity, interaction depth, and model solvability interrelate.
Based on these findings, we propose three actionable design principles and
identify key open challenges, laying the groundwork for systematic CAPTCHA
hardening, fair benchmarking, and broader community collaboration. Datasets and
code are available online.