Quando o Prompt se Torna Visual: Ataques de Jailbreak Centrados na Visão para Grandes Modelos de Edição de Imagens

Resumo

Os recentes avanços nos grandes modelos de edição de imagens têm deslocado o paradigma das instruções baseadas em texto para a edição por _prompts_ visuais, onde a intenção do usuário é inferida diretamente a partir de entradas visuais, como marcas, setas e _prompts_ visuo-textuais. Embora esse paradigma expanda consideravelmente a usabilidade, ele também introduz um risco crítico e pouco explorado de segurança: a própria superfície de ataque torna-se visual. Neste trabalho, propomos o Ataque de _Jailbreak_ Centrado na Visão (VJA), o primeiro ataque de _jailbreak_ visual-a-visual que transmite instruções maliciosas puramente por meio de entradas visuais. Para estudar sistematicamente essa ameaça emergente, introduzimos o IESBench, um _benchmark_ voltado para a segurança de modelos de edição de imagens. Experimentos extensivos no IESBench demonstram que o VJA compromete efetivamente modelos comerciais de última geração, atingindo taxas de sucesso de ataque de até 80,9% no Nano Banana Pro e 70,1% no GPT-Image-1.5. Para mitigar essa vulnerabilidade, propomos uma defesa sem necessidade de treinamento baseada em raciocínio multimodal introspectivo, que melhora substancialmente a segurança de modelos com alinhamento deficiente para um nível comparável aos sistemas comerciais, sem modelos guardiões auxiliares e com sobrecarga computacional insignificante. Nossas descobertas expõem novas vulnerabilidades e fornecem tanto um _benchmark_ quanto uma defesa prática para avançar os sistemas modernos de edição de imagens de forma segura e confiável. Aviso: Este artigo contém imagens ofensivas criadas por grandes modelos de edição de imagens.

English

Recent advances in large image editing models have shifted the paradigm from text-driven instructions to vision-prompt editing, where user intent is inferred directly from visual inputs such as marks, arrows, and visual-text prompts. While this paradigm greatly expands usability, it also introduces a critical and underexplored safety risk: the attack surface itself becomes visual. In this work, we propose Vision-Centric Jailbreak Attack (VJA), the first visual-to-visual jailbreak attack that conveys malicious instructions purely through visual inputs. To systematically study this emerging threat, we introduce IESBench, a safety-oriented benchmark for image editing models. Extensive experiments on IESBench demonstrate that VJA effectively compromises state-of-the-art commercial models, achieving attack success rates of up to 80.9% on Nano Banana Pro and 70.1% on GPT-Image-1.5. To mitigate this vulnerability, we propose a training-free defense based on introspective multimodal reasoning, which substantially improves the safety of poorly aligned models to a level comparable with commercial systems, without auxiliary guard models and with negligible computational overhead. Our findings expose new vulnerabilities, provide both a benchmark and practical defense to advance safe and trustworthy modern image editing systems. Warning: This paper contains offensive images created by large image editing models.

Quando o Prompt se Torna Visual: Ataques de Jailbreak Centrados na Visão para Grandes Modelos de Edição de Imagens

When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

Resumo

Support