적대적 혼란 공격: 멀티모달 대규모 언어 모델 교란
Adversarial Confusion Attack: Disrupting Multimodal Large Language Models
November 25, 2025
저자: Jakub Hoscilowicz, Artur Janicki
cs.AI
초록
본 논문에서는 멀티모달 대규모 언어 모델(MLLM)을 대상으로 하는 새로운 위협 유형인 적대적 혼란 공격을 소개한다. 이 공격은 재택탈출(jailbreak)이나 표적 오분류와 달리, 모델이 비일관적이거나 확신을 가지고 틀린 출력을 생성하도록 체계적으로 방해하는 것을 목표로 한다. 실제 적용 사례로는 이러한 적대적 이미지를 웹사이트에 삽입하여 MLLM 기반 AI 에이전트가 안정적으로 작동하지 못하게 하는 것이 있다. 제안된 공격은 소규모 오픈소스 MLLM 앙상블을 사용하여 다음 토큰의 엔트로피를 최대화한다. 화이트박스 설정에서 단일 적대적 이미지가 전체 이미지 및 적대적 CAPTCHA 설정에서 앙상블 내 모든 모델을 방해할 수 있음을 보인다. 기본적인 적대적 기법(PDG)을 사용함에도 불구하고, 이 공격으로 생성된 섭동은 보지 않은 오픈소스 모델(예: Qwen3-VL)과 사적 모델(예: GPT-5.1) 모두로 전이되는 특징을 보인다.
English
We introduce the Adversarial Confusion Attack, a new class of threats against multimodal large language models (MLLMs). Unlike jailbreaks or targeted misclassification, the goal is to induce systematic disruption that makes the model generate incoherent or confidently incorrect outputs. Practical applications include embedding such adversarial images into websites to prevent MLLM-powered AI Agents from operating reliably. The proposed attack maximizes next-token entropy using a small ensemble of open-source MLLMs. In the white-box setting, we show that a single adversarial image can disrupt all models in the ensemble, both in the full-image and Adversarial CAPTCHA settings. Despite relying on a basic adversarial technique (PGD), the attack generates perturbations that transfer to both unseen open-source (e.g., Qwen3-VL) and proprietary (e.g., GPT-5.1) models.