Quand l'invite devient visuel : attaques par jailbreak centrées sur la vision pour les grands modèles d'édition d'image
When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models
February 10, 2026
papers.authors: Jiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang
cs.AI
papers.abstract
Les récentes avancées des modèles d'édition d'image de grande taille ont fait évoluer le paradigme des instructions basées sur le texte vers l'édition par incitation visuelle, où l'intention de l'utilisateur est déduite directement d'entrées visuelles telles que des marques, des flèches et des invites visuo-textuelles. Bien que ce paradigme élargisse considérablement la facilité d'utilisation, il introduit également un risque de sécurité critique et insuffisamment exploré : la surface d'attaque devient elle-même visuelle. Dans ce travail, nous proposons l'attaque par déverrouillage à vocation visuelle (VJA), la première attaque de type déverrouillage visuo-visuel qui transmet des instructions malveillantes purement par des entrées visuelles. Pour étudier systématiquement cette menace émergente, nous introduisons IESBench, un banc d'essai axé sur la sécurité pour les modèles d'édition d'image. Des expériences approfondies sur IESBench démontrent que VJA compromet efficacement les modèles commerciaux de pointe, atteignant des taux de réussite d'attaque allant jusqu'à 80,9 % sur Nano Banana Pro et 70,1 % sur GPT-Image-1.5. Pour atténuer cette vulnérabilité, nous proposons une défense sans apprentissage basée sur un raisonnement multimodal introspectif, qui améliore considérablement la sécurité des modèles faiblement alignés pour atteindre un niveau comparable aux systèmes commerciaux, sans modèles de protection auxiliaires et avec une surcharge computationnelle négligeable. Nos résultats exposent de nouvelles vulnérabilités, fournissent à la fois un banc d'essai et une défense pratique pour faire progresser les systèmes modernes d'édition d'image sûrs et dignes de confiance. Avertissement : Cet article contient des images offensantes créées par de grands modèles d'édition d'image.
English
Recent advances in large image editing models have shifted the paradigm from text-driven instructions to vision-prompt editing, where user intent is inferred directly from visual inputs such as marks, arrows, and visual-text prompts. While this paradigm greatly expands usability, it also introduces a critical and underexplored safety risk: the attack surface itself becomes visual. In this work, we propose Vision-Centric Jailbreak Attack (VJA), the first visual-to-visual jailbreak attack that conveys malicious instructions purely through visual inputs. To systematically study this emerging threat, we introduce IESBench, a safety-oriented benchmark for image editing models. Extensive experiments on IESBench demonstrate that VJA effectively compromises state-of-the-art commercial models, achieving attack success rates of up to 80.9% on Nano Banana Pro and 70.1% on GPT-Image-1.5. To mitigate this vulnerability, we propose a training-free defense based on introspective multimodal reasoning, which substantially improves the safety of poorly aligned models to a level comparable with commercial systems, without auxiliary guard models and with negligible computational overhead. Our findings expose new vulnerabilities, provide both a benchmark and practical defense to advance safe and trustworthy modern image editing systems. Warning: This paper contains offensive images created by large image editing models.