MCA-Bench: Un punto de referencia multimodal para evaluar la robustez de CAPTCHA frente a ataques basados en VLM
MCA-Bench: A Multimodal Benchmark for Evaluating CAPTCHA Robustness Against VLM-based Attacks
June 6, 2025
Autores: Zonglin Wu, Yule Xue, Xin Wei, Yiren Song
cs.AI
Resumen
A medida que las técnicas de ataques automatizados avanzan rápidamente, los CAPTCHAs siguen siendo un mecanismo de defensa crítico contra bots maliciosos. Sin embargo, los esquemas de CAPTCHA existentes abarcan una amplia gama de modalidades, desde texto distorsionado estático e imágenes ofuscadas hasta clics interactivos, rompecabezas deslizantes y preguntas basadas en lógica. No obstante, la comunidad aún carece de un punto de referencia unificado, a gran escala y multimodal para evaluar rigurosamente su robustez de seguridad. Para abordar esta brecha, presentamos MCA-Bench, una suite de evaluación integral y reproducible que integra tipos heterogéneos de CAPTCHA en un único protocolo de evaluación. Aprovechando un modelo compartido de visión y lenguaje, ajustamos agentes especializados en descifrado para cada categoría de CAPTCHA, permitiendo evaluaciones consistentes y multimodales. Experimentos extensos revelan que MCA-Bench mapea efectivamente el espectro de vulnerabilidad de los diseños modernos de CAPTCHA bajo diversos escenarios de ataque y, crucialmente, ofrece el primer análisis cuantitativo de cómo la complejidad del desafío, la profundidad de la interacción y la capacidad de resolución del modelo se interrelacionan. Basándonos en estos hallazgos, proponemos tres principios de diseño accionables e identificamos desafíos abiertos clave, sentando las bases para el fortalecimiento sistemático de CAPTCHAs, la evaluación justa y una colaboración más amplia en la comunidad. Los conjuntos de datos y el código están disponibles en línea.
English
As automated attack techniques rapidly advance, CAPTCHAs remain a critical
defense mechanism against malicious bots. However, existing CAPTCHA schemes
encompass a diverse range of modalities -- from static distorted text and
obfuscated images to interactive clicks, sliding puzzles, and logic-based
questions -- yet the community still lacks a unified, large-scale, multimodal
benchmark to rigorously evaluate their security robustness. To address this
gap, we introduce MCA-Bench, a comprehensive and reproducible benchmarking
suite that integrates heterogeneous CAPTCHA types into a single evaluation
protocol. Leveraging a shared vision-language model backbone, we fine-tune
specialized cracking agents for each CAPTCHA category, enabling consistent,
cross-modal assessments. Extensive experiments reveal that MCA-Bench
effectively maps the vulnerability spectrum of modern CAPTCHA designs under
varied attack settings, and crucially offers the first quantitative analysis of
how challenge complexity, interaction depth, and model solvability interrelate.
Based on these findings, we propose three actionable design principles and
identify key open challenges, laying the groundwork for systematic CAPTCHA
hardening, fair benchmarking, and broader community collaboration. Datasets and
code are available online.