ChatPaper.aiChatPaper

Adversarial Confusion Attack: Störung multimodaler Large Language Models

Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

November 25, 2025
papers.authors: Jakub Hoscilowicz, Artur Janicki
cs.AI

papers.abstract

Wir stellen den Adversarial Confusion Attack vor, eine neue Klasse von Bedrohungen für multimodale Large Language Models (MLLMs). Im Gegensatz zu Jailbreaks oder gezielter Fehlklassifizierung besteht das Ziel darin, eine systematische Störung zu induzieren, die das Modell veranlasst, inkohärente oder selbstsichere, aber falsche Ausgaben zu generieren. Praktische Anwendungen umfassen das Einbetten solcher adversarieller Bilder in Websites, um zu verhindern, dass MLLM-gestützte KI-Agenten zuverlässig operieren können. Der vorgeschlagene Angriff maximiert die Entropie des nächsten Tokens unter Verwendung eines kleinen Ensembles von Open-Source-MLLMs. Im White-Box-Szenario zeigen wir, dass ein einziges adversarielles Bild alle Modelle des Ensembles sowohl im Vollbild- als auch im Adversarial-CAPTCHA-Setting stören kann. Obwohl der Angriff auf einer grundlegenden adversariellen Technik (PGD) basiert, erzeugt er Perturbationen, die sowohl auf ungesehene Open-Source-Modelle (z.B. Qwen3-VL) als auch auf proprietäre Modelle (z.B. GPT-5.1) übertragbar sind.
English
We introduce the Adversarial Confusion Attack, a new class of threats against multimodal large language models (MLLMs). Unlike jailbreaks or targeted misclassification, the goal is to induce systematic disruption that makes the model generate incoherent or confidently incorrect outputs. Practical applications include embedding such adversarial images into websites to prevent MLLM-powered AI Agents from operating reliably. The proposed attack maximizes next-token entropy using a small ensemble of open-source MLLMs. In the white-box setting, we show that a single adversarial image can disrupt all models in the ensemble, both in the full-image and Adversarial CAPTCHA settings. Despite relying on a basic adversarial technique (PGD), the attack generates perturbations that transfer to both unseen open-source (e.g., Qwen3-VL) and proprietary (e.g., GPT-5.1) models.
PDF01December 5, 2025