敵対的混乱攻撃:マルチモーダル大規模言語モデルの攪乱
Adversarial Confusion Attack: Disrupting Multimodal Large Language Models
November 25, 2025
著者: Jakub Hoscilowicz, Artur Janicki
cs.AI
要旨
我々は、マルチモーダル大規模言語モデル(MLLM)に対する新たな脅威のクラスである「敵対的混乱攻撃」を提案する。本攻撃は、モデル jailbreak や特定の誤分類誘導とは異なり、モデルに一貫性のない、または過剰に自信を持った誤った出力を体系的に生成させることを目的とする。実用的な応用例として、このような敵対的画像をウェブサイトに埋め込むことで、MLLMを搭載したAIエージェントの信頼性のある動作を妨げることが挙げられる。提案手法は、少数のオープンソースMLLMアンサンブルを用いて次トークンのエントロピーを最大化する。ホワイトボックス設定において、単一の敵対的画像が、フル画像設定およびAdversarial CAPTCHA設定の双方において、アンサンブル内の全てのモデルを混乱させ得ることを示す。基本的な敵対的攻撃手法(PGD)に依存しているにもかかわらず、本攻撃が生成する摂動は、未学習のオープンソースモデル(例:Qwen3-VL)およびプロプライエタリモデル(例:GPT-5.1)に対しても転移する。
English
We introduce the Adversarial Confusion Attack, a new class of threats against multimodal large language models (MLLMs). Unlike jailbreaks or targeted misclassification, the goal is to induce systematic disruption that makes the model generate incoherent or confidently incorrect outputs. Practical applications include embedding such adversarial images into websites to prevent MLLM-powered AI Agents from operating reliably. The proposed attack maximizes next-token entropy using a small ensemble of open-source MLLMs. In the white-box setting, we show that a single adversarial image can disrupt all models in the ensemble, both in the full-image and Adversarial CAPTCHA settings. Despite relying on a basic adversarial technique (PGD), the attack generates perturbations that transfer to both unseen open-source (e.g., Qwen3-VL) and proprietary (e.g., GPT-5.1) models.