プロンプトが視覚化されるとき:大規模画像編集モデルに対する視覚中心型ジェイルブレイク攻撃
When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models
February 10, 2026
著者: Jiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang
cs.AI
要旨
大規模画像編集モデルの最近の進歩は、テキスト駆動の指示から、ユーザーの意図をマークや矢印、視覚的テキストプロンプトなどの視覚的入力から直接推論する「視覚プロンプト編集」へとパラダイムを移行させている。このパラダイムは利便性を大きく拡大する一方で、重大かつ十分に検討されていない安全リスクも導入する。すなわち、攻撃対象領域そのものが視覚的になるのである。本論文では、悪意のある指示を視覚入力のみで伝達する、初の視覚対視覚ジャイルブレイク攻撃であるVision-Centric Jailbreak Attack (VJA) を提案する。この新興の脅威を体系的に研究するため、画像編集モデルのための安全性指向ベンチマークであるIESBenchを導入する。IESBenchにおける大規模な実験により、VJAが最先端の商用モデルに対して有効に妥協を図り、Nano Banana Proでは最大80.9%、GPT-Image-1.5では70.1%の攻撃成功率を達成することが実証された。この脆弱性を軽減するため、内省的多モーダル推論に基づくトレーニング不要の防御手法を提案する。これは、補助的なガードモデルを必要とせず、計算オーバーヘッドを無視できる程度に抑えながら、整合性の低いモデルの安全性を商用システムに匹敵するレベルまで大幅に向上させる。我々の発見は新たな脆弱性を明らかにし、安全で信頼できる現代の画像編集システムを推進するためのベンチマークと実用的な防御の両方を提供する。警告:本論文には大規模画像編集モデルによって作成された不快な画像が含まれています。
English
Recent advances in large image editing models have shifted the paradigm from text-driven instructions to vision-prompt editing, where user intent is inferred directly from visual inputs such as marks, arrows, and visual-text prompts. While this paradigm greatly expands usability, it also introduces a critical and underexplored safety risk: the attack surface itself becomes visual. In this work, we propose Vision-Centric Jailbreak Attack (VJA), the first visual-to-visual jailbreak attack that conveys malicious instructions purely through visual inputs. To systematically study this emerging threat, we introduce IESBench, a safety-oriented benchmark for image editing models. Extensive experiments on IESBench demonstrate that VJA effectively compromises state-of-the-art commercial models, achieving attack success rates of up to 80.9% on Nano Banana Pro and 70.1% on GPT-Image-1.5. To mitigate this vulnerability, we propose a training-free defense based on introspective multimodal reasoning, which substantially improves the safety of poorly aligned models to a level comparable with commercial systems, without auxiliary guard models and with negligible computational overhead. Our findings expose new vulnerabilities, provide both a benchmark and practical defense to advance safe and trustworthy modern image editing systems. Warning: This paper contains offensive images created by large image editing models.