ChatPaper.aiChatPaper

MCA-Bench: Un punto de referencia multimodal para evaluar la robustez de CAPTCHA frente a ataques basados en VLM

MCA-Bench: A Multimodal Benchmark for Evaluating CAPTCHA Robustness Against VLM-based Attacks

June 6, 2025
Autores: Zonglin Wu, Yule Xue, Xin Wei, Yiren Song
cs.AI

Resumen

A medida que las técnicas de ataques automatizados avanzan rápidamente, los CAPTCHAs siguen siendo un mecanismo de defensa crítico contra bots maliciosos. Sin embargo, los esquemas de CAPTCHA existentes abarcan una amplia gama de modalidades, desde texto distorsionado estático e imágenes ofuscadas hasta clics interactivos, rompecabezas deslizantes y preguntas basadas en lógica. No obstante, la comunidad aún carece de un punto de referencia unificado, a gran escala y multimodal para evaluar rigurosamente su robustez de seguridad. Para abordar esta brecha, presentamos MCA-Bench, una suite de evaluación integral y reproducible que integra tipos heterogéneos de CAPTCHA en un único protocolo de evaluación. Aprovechando un modelo compartido de visión y lenguaje, ajustamos agentes especializados en descifrado para cada categoría de CAPTCHA, permitiendo evaluaciones consistentes y multimodales. Experimentos extensos revelan que MCA-Bench mapea efectivamente el espectro de vulnerabilidad de los diseños modernos de CAPTCHA bajo diversos escenarios de ataque y, crucialmente, ofrece el primer análisis cuantitativo de cómo la complejidad del desafío, la profundidad de la interacción y la capacidad de resolución del modelo se interrelacionan. Basándonos en estos hallazgos, proponemos tres principios de diseño accionables e identificamos desafíos abiertos clave, sentando las bases para el fortalecimiento sistemático de CAPTCHAs, la evaluación justa y una colaboración más amplia en la comunidad. Los conjuntos de datos y el código están disponibles en línea.
English
As automated attack techniques rapidly advance, CAPTCHAs remain a critical defense mechanism against malicious bots. However, existing CAPTCHA schemes encompass a diverse range of modalities -- from static distorted text and obfuscated images to interactive clicks, sliding puzzles, and logic-based questions -- yet the community still lacks a unified, large-scale, multimodal benchmark to rigorously evaluate their security robustness. To address this gap, we introduce MCA-Bench, a comprehensive and reproducible benchmarking suite that integrates heterogeneous CAPTCHA types into a single evaluation protocol. Leveraging a shared vision-language model backbone, we fine-tune specialized cracking agents for each CAPTCHA category, enabling consistent, cross-modal assessments. Extensive experiments reveal that MCA-Bench effectively maps the vulnerability spectrum of modern CAPTCHA designs under varied attack settings, and crucially offers the first quantitative analysis of how challenge complexity, interaction depth, and model solvability interrelate. Based on these findings, we propose three actionable design principles and identify key open challenges, laying the groundwork for systematic CAPTCHA hardening, fair benchmarking, and broader community collaboration. Datasets and code are available online.
PDF12June 13, 2025