ChatPaper.aiChatPaper

Attacco di Confusione Adversariale: Sovvertire i Modelli Linguistici Multimodali di Grandi Dimensioni

Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

November 25, 2025
Autori: Jakub Hoscilowicz, Artur Janicki
cs.AI

Abstract

Introduciamo l'Adversarial Confusion Attack, una nuova classe di minacce contro i modelli linguistici multimodali di grandi dimensioni (MLLM). A differenza dei jailbreak o delle errata classificazione mirata, l'obiettivo è indurre un'interruzione sistematica che porti il modello a generare output incoerenti o decisamente errati. Le applicazioni pratiche includono l'incorporamento di tali immagini avversarie in siti web per impedire il funzionamento affidabile degli Agenti IA basati su MLLM. L'attacco proposto massimizza l'entropia del token successivo utilizzando un piccolo ensemble di MLLM open-source. In uno scenario white-box, dimostriamo che una singola immagine avversaria può perturbare tutti i modelli nell'ensemble, sia in contesti di immagine completa che di CAPTCHA avversario. Nonostante si basi su una tecnica avversaria di base (PGD), l'attacco genera perturbazioni che si trasferiscono sia a modelli open-source non visti in fase di sviluppo (ad es. Qwen3-VL) che a modelli proprietari (ad es. GPT-5.1).
English
We introduce the Adversarial Confusion Attack, a new class of threats against multimodal large language models (MLLMs). Unlike jailbreaks or targeted misclassification, the goal is to induce systematic disruption that makes the model generate incoherent or confidently incorrect outputs. Practical applications include embedding such adversarial images into websites to prevent MLLM-powered AI Agents from operating reliably. The proposed attack maximizes next-token entropy using a small ensemble of open-source MLLMs. In the white-box setting, we show that a single adversarial image can disrupt all models in the ensemble, both in the full-image and Adversarial CAPTCHA settings. Despite relying on a basic adversarial technique (PGD), the attack generates perturbations that transfer to both unseen open-source (e.g., Qwen3-VL) and proprietary (e.g., GPT-5.1) models.
PDF01December 5, 2025