MCA-Bench: Um Benchmark Multimodal para Avaliar a Robustez de CAPTCHAs Contra Ataques Baseados em VLMs
MCA-Bench: A Multimodal Benchmark for Evaluating CAPTCHA Robustness Against VLM-based Attacks
June 6, 2025
Autores: Zonglin Wu, Yule Xue, Xin Wei, Yiren Song
cs.AI
Resumo
À medida que as técnicas de ataque automatizado avançam rapidamente, os CAPTCHAs continuam sendo um mecanismo de defesa crítico contra bots maliciosos. No entanto, os esquemas de CAPTCHA existentes abrangem uma ampla gama de modalidades — desde textos distorcidos estáticos e imagens ofuscadas até cliques interativos, quebra-cabeças deslizantes e perguntas baseadas em lógica —, mas a comunidade ainda carece de um benchmark unificado, em larga escala e multimodal para avaliar rigorosamente sua robustez de segurança. Para preencher essa lacuna, apresentamos o MCA-Bench, um conjunto abrangente e reproduzível de benchmarks que integra tipos heterogêneos de CAPTCHA em um único protocolo de avaliação. Aproveitando um modelo de base compartilhado de visão e linguagem, ajustamos agentes especializados em quebrar CAPTCHAs para cada categoria, permitindo avaliações consistentes e cross-modais. Experimentos extensivos revelam que o MCA-Bench mapeia efetivamente o espectro de vulnerabilidade dos designs modernos de CAPTCHA sob diversas configurações de ataque e, crucialmente, oferece a primeira análise quantitativa de como a complexidade do desafio, a profundidade da interação e a capacidade de solução do modelo se inter-relacionam. Com base nessas descobertas, propomos três princípios de design acionáveis e identificamos desafios abertos fundamentais, estabelecendo as bases para o fortalecimento sistemático de CAPTCHAs, benchmarks justos e uma colaboração mais ampla da comunidade. Conjuntos de dados e código estão disponíveis online.
English
As automated attack techniques rapidly advance, CAPTCHAs remain a critical
defense mechanism against malicious bots. However, existing CAPTCHA schemes
encompass a diverse range of modalities -- from static distorted text and
obfuscated images to interactive clicks, sliding puzzles, and logic-based
questions -- yet the community still lacks a unified, large-scale, multimodal
benchmark to rigorously evaluate their security robustness. To address this
gap, we introduce MCA-Bench, a comprehensive and reproducible benchmarking
suite that integrates heterogeneous CAPTCHA types into a single evaluation
protocol. Leveraging a shared vision-language model backbone, we fine-tune
specialized cracking agents for each CAPTCHA category, enabling consistent,
cross-modal assessments. Extensive experiments reveal that MCA-Bench
effectively maps the vulnerability spectrum of modern CAPTCHA designs under
varied attack settings, and crucially offers the first quantitative analysis of
how challenge complexity, interaction depth, and model solvability interrelate.
Based on these findings, we propose three actionable design principles and
identify key open challenges, laying the groundwork for systematic CAPTCHA
hardening, fair benchmarking, and broader community collaboration. Datasets and
code are available online.