ChatPaper.aiChatPaper

Cuando el Prompt se Vuelve Visual: Ataques de Jailbreak Centrados en la Visión para Grandes Modelos de Edición de Imágenes

When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

February 10, 2026
Autores: Jiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang
cs.AI

Resumen

Los recientes avances en los grandes modelos de edición de imágenes han desplazado el paradigma de las instrucciones basadas en texto hacia la edición mediante indicaciones visuales, donde la intención del usuario se infiere directamente a partir de entradas visuales como marcas, flechas y mensajes visual-textuales. Si bien este paradigma amplía enormemente la usabilidad, también introduce un riesgo de seguridad crítico y poco explorado: la propia superficie de ataque se vuelve visual. En este trabajo, proponemos el Ataque de Jailbreak Centrado en la Visión (VJA), el primer ataque de jailbreak visual-a-visual que transmite instrucciones maliciosas únicamente a través de entradas visuales. Para estudiar sistemáticamente esta amenaza emergente, presentamos IESBench, un punto de referencia orientado a la seguridad para modelos de edición de imágenes. Experimentos exhaustivos en IESBench demuestran que el VJA compromete efectivamente modelos comerciales de vanguardia, logrando tasas de éxito de ataque de hasta el 80,9% en Nano Banana Pro y del 70,1% en GPT-Image-1.5. Para mitigar esta vulnerabilidad, proponemos una defensa sin necesidad de entrenamiento basada en el razonamiento multimodal introspectivo, que mejora sustancialmente la seguridad de modelos con alineación deficiente hasta un nivel comparable con los sistemas comerciales, sin necesidad de modelos de protección auxiliares y con un costo computacional negligible. Nuestros hallazgos exponen nuevas vulnerabilidades, y proporcionan tanto un punto de referencia como una defensa práctica para avanzar en el desarrollo de sistemas modernos de edición de imágenes seguros y confiables. Advertencia: Este artículo contiene imágenes ofensivas creadas por grandes modelos de edición de imágenes.
English
Recent advances in large image editing models have shifted the paradigm from text-driven instructions to vision-prompt editing, where user intent is inferred directly from visual inputs such as marks, arrows, and visual-text prompts. While this paradigm greatly expands usability, it also introduces a critical and underexplored safety risk: the attack surface itself becomes visual. In this work, we propose Vision-Centric Jailbreak Attack (VJA), the first visual-to-visual jailbreak attack that conveys malicious instructions purely through visual inputs. To systematically study this emerging threat, we introduce IESBench, a safety-oriented benchmark for image editing models. Extensive experiments on IESBench demonstrate that VJA effectively compromises state-of-the-art commercial models, achieving attack success rates of up to 80.9% on Nano Banana Pro and 70.1% on GPT-Image-1.5. To mitigate this vulnerability, we propose a training-free defense based on introspective multimodal reasoning, which substantially improves the safety of poorly aligned models to a level comparable with commercial systems, without auxiliary guard models and with negligible computational overhead. Our findings expose new vulnerabilities, provide both a benchmark and practical defense to advance safe and trustworthy modern image editing systems. Warning: This paper contains offensive images created by large image editing models.
PDF51February 13, 2026