Когда промпт становится визуальным: атаки взлома с фокусом на зрение для больших моделей редактирования изображений
When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models
February 10, 2026
Авторы: Jiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang
cs.AI
Аннотация
Последние достижения в области больших моделей редактирования изображений сместили парадигму от текстовых инструкций к редактированию с помощью визуальных подсказок, когда намерение пользователя определяется непосредственно из визуальных входных данных, таких как пометки, стрелки и визуально-текстовые промпты. Хотя эта парадигма значительно расширяет удобство использования, она также вводит критический и недостаточно изученный риск безопасности: сама поверхность атаки становится визуальной. В данной работе мы предлагаем Vision-Centric Jailbreak Attack (VJA) — первую визуально-визуальную атаку взлома, которая передает вредоносные инструкции исключительно через визуальные входные данные. Для систематического изучения этой новой угрозы мы представляем IESBench, ориентированный на безопасность бенчмарк для моделей редактирования изображений. Многочисленные эксперименты на IESBench демонстрируют, что VJA эффективно компрометирует передовые коммерческие модели, достигая успеха атаки до 80,9% на Nano Banana Pro и 70,1% на GPT-Image-1.5. Для снижения этой уязвимости мы предлагаем беспоисковую защиту на основе интроспективных мультимодальных рассуждений, которая существенно повышает безопасность плохо выровненных моделей до уровня, сопоставимого с коммерческими системами, без вспомогательных моделей-защитников и с пренебрежимо малыми вычислительными затратами. Наши результаты выявляют новые уязвимости, предоставляя как бенчмарк, так и практическую защиту для развития безопасных и надежных современных систем редактирования изображений. Внимание: данная статья содержит оскорбительные изображения, созданные большими моделями редактирования изображений.
English
Recent advances in large image editing models have shifted the paradigm from text-driven instructions to vision-prompt editing, where user intent is inferred directly from visual inputs such as marks, arrows, and visual-text prompts. While this paradigm greatly expands usability, it also introduces a critical and underexplored safety risk: the attack surface itself becomes visual. In this work, we propose Vision-Centric Jailbreak Attack (VJA), the first visual-to-visual jailbreak attack that conveys malicious instructions purely through visual inputs. To systematically study this emerging threat, we introduce IESBench, a safety-oriented benchmark for image editing models. Extensive experiments on IESBench demonstrate that VJA effectively compromises state-of-the-art commercial models, achieving attack success rates of up to 80.9% on Nano Banana Pro and 70.1% on GPT-Image-1.5. To mitigate this vulnerability, we propose a training-free defense based on introspective multimodal reasoning, which substantially improves the safety of poorly aligned models to a level comparable with commercial systems, without auxiliary guard models and with negligible computational overhead. Our findings expose new vulnerabilities, provide both a benchmark and practical defense to advance safe and trustworthy modern image editing systems. Warning: This paper contains offensive images created by large image editing models.