프롬프트가 시각화될 때: 대규모 이미지 편집 모델을 위한 시각 중심 재닥브레이크 공격
When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models
February 10, 2026
저자: Jiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang
cs.AI
초록
대규모 이미지 편집 모델의 최근 발전은 텍스트 기반 지시에서 시각적 프롬프트 편집으로 패러다임을 전환하였으며, 여기서는 사용자 의도가 마크, 화살표, 시각-텍스트 프롬프트와 같은 시각적 입력으로부터 직접 추론됩니다. 이러한 패러다임은 사용성을 크게 확장하지만, 공격 표면 자체가 시각화된다는 중요한 그리고 충분히 탐구되지 않은 안전 위험을 동시에 도입합니다. 본 연구에서는 순수히 시각적 입력을 통해 악성 지시를 전달하는 최초의 시각-시각적 탈옥 공격인 Vision-Centric Jailbreak Attack(VJA)을 제안합니다. 이 새로운 위협을 체계적으로 연구하기 위해 이미지 편집 모델을 위한 안전 중심 벤치마크인 IESBench을 소개합니다. IESBench에 대한 광범위한 실험을 통해 VJA가 최신 상용 모델을 효과적으로 공격하여 Nano Banana Pro에서 최대 80.9%, GPT-Image-1.5에서 70.1%의 공격 성공률을 달성함을 입증합니다. 이 취약점을 완화하기 위해, 우리는 내성적 다중모달 추론에 기반한 학습 불필요 방어 기법을 제안하며, 이는 보조 보호 모델 없이 그리고 무시할 수 있는 계산 오버헤드로 낮은 정렬 수준의 모델의 안전성을 상용 시스템에 버금가는 수준으로 크게 향상시킵니다. 우리의 연구 결과는 새로운 취약점을 드러내며, 안전하고 신뢰할 수 있는 현대 이미지 편집 시스템 발전을 위한 벤치마크와 실용적인 방어 방안을 모두 제공합니다. 경고: 본 논문에는 대규모 이미지 편집 모델이 생성한 유해한 이미지가 포함되어 있습니다.
English
Recent advances in large image editing models have shifted the paradigm from text-driven instructions to vision-prompt editing, where user intent is inferred directly from visual inputs such as marks, arrows, and visual-text prompts. While this paradigm greatly expands usability, it also introduces a critical and underexplored safety risk: the attack surface itself becomes visual. In this work, we propose Vision-Centric Jailbreak Attack (VJA), the first visual-to-visual jailbreak attack that conveys malicious instructions purely through visual inputs. To systematically study this emerging threat, we introduce IESBench, a safety-oriented benchmark for image editing models. Extensive experiments on IESBench demonstrate that VJA effectively compromises state-of-the-art commercial models, achieving attack success rates of up to 80.9% on Nano Banana Pro and 70.1% on GPT-Image-1.5. To mitigate this vulnerability, we propose a training-free defense based on introspective multimodal reasoning, which substantially improves the safety of poorly aligned models to a level comparable with commercial systems, without auxiliary guard models and with negligible computational overhead. Our findings expose new vulnerabilities, provide both a benchmark and practical defense to advance safe and trustworthy modern image editing systems. Warning: This paper contains offensive images created by large image editing models.