ChatPaper.aiChatPaper

Quando o Prompt se Torna Visual: Ataques de Jailbreak Centrados na Visão para Grandes Modelos de Edição de Imagens

When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

February 10, 2026
Autores: Jiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang
cs.AI

Resumo

Os recentes avanços nos grandes modelos de edição de imagens têm deslocado o paradigma das instruções baseadas em texto para a edição por _prompts_ visuais, onde a intenção do usuário é inferida diretamente a partir de entradas visuais, como marcas, setas e _prompts_ visuo-textuais. Embora esse paradigma expanda consideravelmente a usabilidade, ele também introduz um risco crítico e pouco explorado de segurança: a própria superfície de ataque torna-se visual. Neste trabalho, propomos o Ataque de _Jailbreak_ Centrado na Visão (VJA), o primeiro ataque de _jailbreak_ visual-a-visual que transmite instruções maliciosas puramente por meio de entradas visuais. Para estudar sistematicamente essa ameaça emergente, introduzimos o IESBench, um _benchmark_ voltado para a segurança de modelos de edição de imagens. Experimentos extensivos no IESBench demonstram que o VJA compromete efetivamente modelos comerciais de última geração, atingindo taxas de sucesso de ataque de até 80,9% no Nano Banana Pro e 70,1% no GPT-Image-1.5. Para mitigar essa vulnerabilidade, propomos uma defesa sem necessidade de treinamento baseada em raciocínio multimodal introspectivo, que melhora substancialmente a segurança de modelos com alinhamento deficiente para um nível comparável aos sistemas comerciais, sem modelos guardiões auxiliares e com sobrecarga computacional insignificante. Nossas descobertas expõem novas vulnerabilidades e fornecem tanto um _benchmark_ quanto uma defesa prática para avançar os sistemas modernos de edição de imagens de forma segura e confiável. Aviso: Este artigo contém imagens ofensivas criadas por grandes modelos de edição de imagens.
English
Recent advances in large image editing models have shifted the paradigm from text-driven instructions to vision-prompt editing, where user intent is inferred directly from visual inputs such as marks, arrows, and visual-text prompts. While this paradigm greatly expands usability, it also introduces a critical and underexplored safety risk: the attack surface itself becomes visual. In this work, we propose Vision-Centric Jailbreak Attack (VJA), the first visual-to-visual jailbreak attack that conveys malicious instructions purely through visual inputs. To systematically study this emerging threat, we introduce IESBench, a safety-oriented benchmark for image editing models. Extensive experiments on IESBench demonstrate that VJA effectively compromises state-of-the-art commercial models, achieving attack success rates of up to 80.9% on Nano Banana Pro and 70.1% on GPT-Image-1.5. To mitigate this vulnerability, we propose a training-free defense based on introspective multimodal reasoning, which substantially improves the safety of poorly aligned models to a level comparable with commercial systems, without auxiliary guard models and with negligible computational overhead. Our findings expose new vulnerabilities, provide both a benchmark and practical defense to advance safe and trustworthy modern image editing systems. Warning: This paper contains offensive images created by large image editing models.
PDF62March 10, 2026