Атака с помощью состязательного запутывания: дестабилизация работы мультимодальных больших языковых моделей
Adversarial Confusion Attack: Disrupting Multimodal Large Language Models
November 25, 2025
Авторы: Jakub Hoscilowicz, Artur Janicki
cs.AI
Аннотация
Мы представляем атаку "Adversarial Confusion Attack" — новый класс угроз для мультимодальных больших языковых моделей (MLLM). В отличие от взлома (jailbreak) или целевой ошибки классификации, её цель — вызвать системный сбой, заставляющий модель генерировать бессвязные или уверенно неверные выводы. Практические применения включают внедрение таких состязательных изображений на веб-сайты для нарушения надежной работы ИИ-агентов, работающих на основе MLLM. Предлагаемая атака максимизирует энтропию следующего токена с использованием небольшого ансамбля открытых MLLM. В условиях белого ящика мы показываем, что одного состязательного изображения достаточно для нарушения работы всех моделей в ансамбле, как в сценарии с полным изображением, так и в настройках Adversarial CAPTCHA. Несмотря на использование базовой состязательной техники (PGD), атака генерирует возмущения, которые переносятся как на непредвиденные открытые (например, Qwen3-VL), так и на проприетарные (например, GPT-5.1) модели.
English
We introduce the Adversarial Confusion Attack, a new class of threats against multimodal large language models (MLLMs). Unlike jailbreaks or targeted misclassification, the goal is to induce systematic disruption that makes the model generate incoherent or confidently incorrect outputs. Practical applications include embedding such adversarial images into websites to prevent MLLM-powered AI Agents from operating reliably. The proposed attack maximizes next-token entropy using a small ensemble of open-source MLLMs. In the white-box setting, we show that a single adversarial image can disrupt all models in the ensemble, both in the full-image and Adversarial CAPTCHA settings. Despite relying on a basic adversarial technique (PGD), the attack generates perturbations that transfer to both unseen open-source (e.g., Qwen3-VL) and proprietary (e.g., GPT-5.1) models.