MCA-Bench: VLM 기반 공격에 대한 CAPTCHA 견고성 평가를 위한 다중모달 벤치마크
MCA-Bench: A Multimodal Benchmark for Evaluating CAPTCHA Robustness Against VLM-based Attacks
June 6, 2025
저자: Zonglin Wu, Yule Xue, Xin Wei, Yiren Song
cs.AI
초록
자동화된 공격 기술이 빠르게 발전함에 따라 CAPTCHA는 악성 봇에 대한 중요한 방어 메커니즘으로 남아 있습니다. 그러나 기존의 CAPTCHA 체계는 정적인 왜곡된 텍스트와 난독화된 이미지부터 인터랙티브 클릭, 슬라이딩 퍼즐, 논리 기반 질문 등 다양한 양식을 포함하고 있음에도 불구하고, 커뮤니티는 여전히 이들의 보안 견고성을 엄격하게 평가할 수 있는 통합적이고 대규모의 다중 양식 벤치마크를 갖추지 못하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 이질적인 CAPTCHA 유형을 단일 평가 프로토콜로 통합한 포괄적이고 재현 가능한 벤치마킹 도구인 MCA-Bench를 소개합니다. 공유된 시각-언어 모델 백본을 활용하여 각 CAPTCHA 카테고리에 특화된 크래킹 에이전트를 미세 조정함으로써 일관된 교차 양식 평가를 가능하게 합니다. 광범위한 실험을 통해 MCA-Bench가 다양한 공격 설정 하에서 현대 CAPTCHA 설계의 취약성 스펙트럼을 효과적으로 매핑하며, 특히 도전 과제의 복잡성, 상호작용 깊이, 모델 해결 가능성 간의 상호 관계에 대한 첫 번째 정량적 분석을 제공함을 확인했습니다. 이러한 발견을 바탕으로, 우리는 세 가지 실행 가능한 설계 원칙을 제안하고 주요 개방형 과제를 식별함으로써 체계적인 CAPTCHA 강화, 공정한 벤치마킹, 그리고 더 넓은 커뮤니티 협력을 위한 기반을 마련했습니다. 데이터셋과 코드는 온라인에서 이용 가능합니다.
English
As automated attack techniques rapidly advance, CAPTCHAs remain a critical
defense mechanism against malicious bots. However, existing CAPTCHA schemes
encompass a diverse range of modalities -- from static distorted text and
obfuscated images to interactive clicks, sliding puzzles, and logic-based
questions -- yet the community still lacks a unified, large-scale, multimodal
benchmark to rigorously evaluate their security robustness. To address this
gap, we introduce MCA-Bench, a comprehensive and reproducible benchmarking
suite that integrates heterogeneous CAPTCHA types into a single evaluation
protocol. Leveraging a shared vision-language model backbone, we fine-tune
specialized cracking agents for each CAPTCHA category, enabling consistent,
cross-modal assessments. Extensive experiments reveal that MCA-Bench
effectively maps the vulnerability spectrum of modern CAPTCHA designs under
varied attack settings, and crucially offers the first quantitative analysis of
how challenge complexity, interaction depth, and model solvability interrelate.
Based on these findings, we propose three actionable design principles and
identify key open challenges, laying the groundwork for systematic CAPTCHA
hardening, fair benchmarking, and broader community collaboration. Datasets and
code are available online.