ChatPaper.aiChatPaper

Ataque de Confusión Adversaria: Perturbación de Modelos de Lenguaje Grandes Multimodales

Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

November 25, 2025
Autores: Jakub Hoscilowicz, Artur Janicki
cs.AI

Resumen

Introducimos el Ataque de Confusión Adversaria, una nueva clase de amenazas contra los modelos de lenguaje multimodal de gran escala. A diferencia de los jailbreaks o la clasificación errónea dirigida, el objetivo es inducir una disrupción sistemática que haga que el modelo genere resultados incoherentes o incorrectos con alta confianza. Las aplicaciones prácticas incluyen incrustar dichas imágenes adversarias en sitios web para impedir que los Agentes de IA basados en MLLM operen de manera confiable. El ataque propuesto maximiza la entropía del siguiente token utilizando un pequeño conjunto de MLLM de código abierto. En el escenario de caja blanca, demostramos que una sola imagen adversaria puede perturbar todos los modelos del conjunto, tanto en la configuración de imagen completa como en la de CAPTCHA Adversario. A pesar de depender de una técnica adversarial básica (PGD), el ataque genera perturbaciones que se transfieren tanto a modelos de código abierto no vistos (por ejemplo, Qwen3-VL) como a modelos propietarios (por ejemplo, GPT-5.1).
English
We introduce the Adversarial Confusion Attack, a new class of threats against multimodal large language models (MLLMs). Unlike jailbreaks or targeted misclassification, the goal is to induce systematic disruption that makes the model generate incoherent or confidently incorrect outputs. Practical applications include embedding such adversarial images into websites to prevent MLLM-powered AI Agents from operating reliably. The proposed attack maximizes next-token entropy using a small ensemble of open-source MLLMs. In the white-box setting, we show that a single adversarial image can disrupt all models in the ensemble, both in the full-image and Adversarial CAPTCHA settings. Despite relying on a basic adversarial technique (PGD), the attack generates perturbations that transfer to both unseen open-source (e.g., Qwen3-VL) and proprietary (e.g., GPT-5.1) models.
PDF01December 5, 2025