ChatPaper.aiChatPaper

Adversariële Verwarringsaanval: Verstoring van Multimodale Grote Taalmodellen

Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

November 25, 2025
Auteurs: Jakub Hoscilowicz, Artur Janicki
cs.AI

Samenvatting

Wij introduceren de Adversarial Confusion Attack, een nieuwe klasse van bedreigingen voor multimodale large language models (MLLM's). In tegenstelling tot jailbreaks of gerichte misclassificatie, is het doel het veroorzaken van een systematische ontwrichting die het model incoherente of vol vertrouwen onjuiste outputs laat genereren. Praktische toepassingen omvatten het inbedden van dergelijke adversariële afbeeldingen in websites om te voorkomen dat op MLLM's gestoelde AI-agents betrouwbaar kunnen functioneren. De voorgestelde aanval maximaliseert de entropie van de volgende token met behulp van een kleine ensemble van open-source MLLM's. In de white-box setting tonen we aan dat een enkele adversariële afbeelding alle modellen in de ensemble kan ontwrichten, zowel in de full-image als de Adversarial CAPTCHA setting. Ondanks het gebruik van een basale adversariële techniek (PGD), genereert de aanval perturbaties die transfereren naar zowel ongeziene open-source (bijvoorbeeld Qwen3-VL) als propriëtaire (bijvoorbeeld GPT-5.1) modellen.
English
We introduce the Adversarial Confusion Attack, a new class of threats against multimodal large language models (MLLMs). Unlike jailbreaks or targeted misclassification, the goal is to induce systematic disruption that makes the model generate incoherent or confidently incorrect outputs. Practical applications include embedding such adversarial images into websites to prevent MLLM-powered AI Agents from operating reliably. The proposed attack maximizes next-token entropy using a small ensemble of open-source MLLMs. In the white-box setting, we show that a single adversarial image can disrupt all models in the ensemble, both in the full-image and Adversarial CAPTCHA settings. Despite relying on a basic adversarial technique (PGD), the attack generates perturbations that transfer to both unseen open-source (e.g., Qwen3-VL) and proprietary (e.g., GPT-5.1) models.
PDF01December 5, 2025