Wanneer de Prompt Visueel Wordt: Visiegerichte Jailbreak-aanvallen op Grote Afbeeldingsbewerkingsmodellen
When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models
February 10, 2026
Auteurs: Jiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang
cs.AI
Samenvatting
Recente vooruitgang in grote beeldbewerkingsmodellen heeft het paradigma verschoven van tekstgestuurde instructies naar visueel-gestuurd bewerken, waarbij gebruikersintentie direct wordt afgeleid uit visuele invoer zoals markeringen, pijlen en visueel-tekstprompts. Hoewel dit paradigma de bruikbaarheid aanzienlijk vergroot, introduceert het ook een kritiek en onderbelicht veiligheidsrisico: de aanvalsoppervlakte zelf wordt visueel. In dit werk stellen we Vision-Centric Jailbreak Attack (VJA) voor, de eerste visueel-naar-visueel jailbreak-aanval die schadelijke instructies puur via visuele invoer overbrengt. Om deze opkomende dreiging systematisch te onderzoeken, introduceren we IESBench, een veiligheidsgericht benchmark voor beeldbewerkingsmodellen. Uitgebreide experimenten op IESBench tonen aan dat VJA effectief state-of-the-art commerciële modellen compromitteert, met aanvalsuccespercentages tot 80,9% op Nano Banana Pro en 70,1% op GPT-Image-1.5. Om deze kwetsbaarheid te mitigeren, stellen we een trainingsvrije verdediging voor gebaseerd op introspectieve multimodale redenering, die de veiligheid van slecht afgestemde modellen aanzienlijk verbetert tot een niveau vergelijkbaar met commerciële systemen, zonder hulpbeveiligingsmodellen en met verwaarloosbare rekenkosten. Onze bevindingen blootleggen nieuwe kwetsbaarheden, en bieden zowel een benchmark als een praktische verdediging om veilige en betrouwbare moderne beeldbewerkingssystemen vooruit te helpen. Waarschuwing: Dit artikel bevat aanstootgevende afbeeldingen gegenereerd door grote beeldbewerkingsmodellen.
English
Recent advances in large image editing models have shifted the paradigm from text-driven instructions to vision-prompt editing, where user intent is inferred directly from visual inputs such as marks, arrows, and visual-text prompts. While this paradigm greatly expands usability, it also introduces a critical and underexplored safety risk: the attack surface itself becomes visual. In this work, we propose Vision-Centric Jailbreak Attack (VJA), the first visual-to-visual jailbreak attack that conveys malicious instructions purely through visual inputs. To systematically study this emerging threat, we introduce IESBench, a safety-oriented benchmark for image editing models. Extensive experiments on IESBench demonstrate that VJA effectively compromises state-of-the-art commercial models, achieving attack success rates of up to 80.9% on Nano Banana Pro and 70.1% on GPT-Image-1.5. To mitigate this vulnerability, we propose a training-free defense based on introspective multimodal reasoning, which substantially improves the safety of poorly aligned models to a level comparable with commercial systems, without auxiliary guard models and with negligible computational overhead. Our findings expose new vulnerabilities, provide both a benchmark and practical defense to advance safe and trustworthy modern image editing systems. Warning: This paper contains offensive images created by large image editing models.