ChatPaper.aiChatPaper

Wenn der Prompt visuell wird: Vision-zentrierte Jailbreak-Angriffe auf große Bildbearbeitungsmodelle

When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

February 10, 2026
papers.authors: Jiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang
cs.AI

papers.abstract

Jüngste Fortschritte bei großen Bildbearbeitungsmodellen haben das Paradigma von textgesteuerten Befehlen hin zur Bearbeitung mit visuellen Prompts verschoben, bei der die Benutzerabsicht direkt aus visuellen Eingaben wie Markierungen, Pfeilen und visuell-textuellen Prompts abgeleitet wird. Während dieses Paradigma die Nutzbarkeit erheblich erweitert, führt es auch zu einem kritischen und bisher wenig erforschten Sicherheitsrisiko: Die Angriffsfläche selbst wird visuell. In dieser Arbeit schlagen wir den Vision-Centric Jailbreak Attack (VJA) vor, den ersten visuell-visuellen Jailbreak-Angriff, der schädliche Anweisungen ausschließlich über visuelle Eingaben übermittelt. Um diese neuartige Bedrohung systematisch zu untersuchen, führen wir IESBench ein, einen sicherheitsorientierten Benchmark für Bildbearbeitungsmodelle. Umfangreiche Experimente auf IESBench zeigen, dass VJA state-of-the-art kommerzielle Modelle effektiv kompromittiert und Angriffserfolgsraten von bis zu 80,9 % bei Nano Banana Pro und 70,1 % bei GPT-Image-1.5 erzielt. Um diese Schwachstelle zu entschärfen, schlagen wir eine trainierungsfreie Verteidigung basierend auf introspektivem multimodalen Reasoning vor, die die Sicherheit schlecht alignierter Modelle erheblich auf ein Niveau verbessert, das mit kommerziellen Systemen vergleichbar ist – ohne zusätzliche Schutzmodelle und mit vernachlässigbarem Rechenaufwand. Unsere Ergebnisse legen neue Verwundbarkeiten offen, bieten sowohl einen Benchmark als auch eine praktische Verteidigung, um fortschrittliche, sichere und vertrauenswürdige Bildbearbeitungssysteme voranzubringen. Warnung: Dieses Papier enthält anstößige Bilder, die von großen Bildbearbeitungsmodellen erstellt wurden.
English
Recent advances in large image editing models have shifted the paradigm from text-driven instructions to vision-prompt editing, where user intent is inferred directly from visual inputs such as marks, arrows, and visual-text prompts. While this paradigm greatly expands usability, it also introduces a critical and underexplored safety risk: the attack surface itself becomes visual. In this work, we propose Vision-Centric Jailbreak Attack (VJA), the first visual-to-visual jailbreak attack that conveys malicious instructions purely through visual inputs. To systematically study this emerging threat, we introduce IESBench, a safety-oriented benchmark for image editing models. Extensive experiments on IESBench demonstrate that VJA effectively compromises state-of-the-art commercial models, achieving attack success rates of up to 80.9% on Nano Banana Pro and 70.1% on GPT-Image-1.5. To mitigate this vulnerability, we propose a training-free defense based on introspective multimodal reasoning, which substantially improves the safety of poorly aligned models to a level comparable with commercial systems, without auxiliary guard models and with negligible computational overhead. Our findings expose new vulnerabilities, provide both a benchmark and practical defense to advance safe and trustworthy modern image editing systems. Warning: This paper contains offensive images created by large image editing models.
PDF51February 13, 2026