Ataque de Confusão Adversarial: Perturbando Modelos de Linguagem Multimodais de Grande Escala

Resumo

Apresentamos o Ataque de Confusão Adversarial, uma nova classe de ameaças contra modelos de linguagem multimodal de grande escala (MLLMs). Diferente de jailbreaks ou classificação incorreta direcionada, o objetivo é induzir uma disrupção sistemática que faz o modelo gerar saídas incoerentes ou incorrectas com elevada confiança. As aplicações práticas incluem a incorporação de tais imagens adversariais em websites para impedir que Agentes de IA baseados em MLLMs operem de forma confiável. O ataque proposto maximiza a entropia do próximo token usando um pequeno ensemble de MLLMs de código aberto. No cenário de caixa branca, demonstramos que uma única imagem adversarial pode perturbar todos os modelos do ensemble, tanto na configuração de imagem completa como na de Adversarial CAPTCHA. Apesar de depender de uma técnica adversarial básica (PGD), o ataque gera perturbações que se transferem tanto para modelos de código aberto não vistos (ex: Qwen3-VL) como para modelos proprietários (ex: GPT-5.1).

English

We introduce the Adversarial Confusion Attack, a new class of threats against multimodal large language models (MLLMs). Unlike jailbreaks or targeted misclassification, the goal is to induce systematic disruption that makes the model generate incoherent or confidently incorrect outputs. Practical applications include embedding such adversarial images into websites to prevent MLLM-powered AI Agents from operating reliably. The proposed attack maximizes next-token entropy using a small ensemble of open-source MLLMs. In the white-box setting, we show that a single adversarial image can disrupt all models in the ensemble, both in the full-image and Adversarial CAPTCHA settings. Despite relying on a basic adversarial technique (PGD), the attack generates perturbations that transfer to both unseen open-source (e.g., Qwen3-VL) and proprietary (e.g., GPT-5.1) models.

Ataque de Confusão Adversarial: Perturbando Modelos de Linguagem Multimodais de Grande Escala

Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

Resumo

Support