Quando il prompt diventa visuale: attacchi di jailbreak incentrati sulla visione per i grandi modelli di editing delle immagini

Abstract

I recenti progressi nei grandi modelli di editing di immagini hanno spostato il paradigma dalle istruzioni basate su testo all'editing tramite prompt visivi, dove l'intento dell'utente viene dedotto direttamente da input visivi come segni, frecce e prompt visivo-testuali. Sebbene questo paradigma espanda notevolmente la usabilità, introduce anche un rischio critico e poco esplorato per la sicurezza: la superficie di attacco diventa essa stessa visiva. In questo lavoro, proponiamo Vision-Centric Jailbreak Attack (VJA), il primo attacco jailbreak visivo-visivo che veicola istruzioni malevole esclusivamente tramite input visivi. Per studiare sistematicamente questa minaccia emergente, introduciamo IESBench, un benchmark orientato alla sicurezza per modelli di editing di immagini. Esperimenti estensivi su IESBench dimostrano che VJA compromette efficacemente modelli commerciali all'avanguardia, raggiungendo tassi di successo dell'attacco fino all'80,9% su Nano Banana Pro e al 70,1% su GPT-Image-1.5. Per mitigare questa vulnerabilità, proponiamo una difesa senza addestramento basata sul ragionamento multimodale introspettivo, che migliora sostanzialmente la sicurezza di modelli con allineamento insufficiente fino a un livello paragonabile ai sistemi commerciali, senza modelli guardia ausiliari e con un overhead computazionale trascurabile. I nostri risultati espongono nuove vulnerabilità, fornendo sia un benchmark che una difesa pratica per far progredire sistemi moderni di editing di immagini sicuri e affidabili. Avvertenza: Questo articolo contiene immagini offensive create da grandi modelli di editing di immagini.

English

Recent advances in large image editing models have shifted the paradigm from text-driven instructions to vision-prompt editing, where user intent is inferred directly from visual inputs such as marks, arrows, and visual-text prompts. While this paradigm greatly expands usability, it also introduces a critical and underexplored safety risk: the attack surface itself becomes visual. In this work, we propose Vision-Centric Jailbreak Attack (VJA), the first visual-to-visual jailbreak attack that conveys malicious instructions purely through visual inputs. To systematically study this emerging threat, we introduce IESBench, a safety-oriented benchmark for image editing models. Extensive experiments on IESBench demonstrate that VJA effectively compromises state-of-the-art commercial models, achieving attack success rates of up to 80.9% on Nano Banana Pro and 70.1% on GPT-Image-1.5. To mitigate this vulnerability, we propose a training-free defense based on introspective multimodal reasoning, which substantially improves the safety of poorly aligned models to a level comparable with commercial systems, without auxiliary guard models and with negligible computational overhead. Our findings expose new vulnerabilities, provide both a benchmark and practical defense to advance safe and trustworthy modern image editing systems. Warning: This paper contains offensive images created by large image editing models.

Quando il prompt diventa visuale: attacchi di jailbreak incentrati sulla visione per i grandi modelli di editing delle immagini

When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

Abstract

Support