Phi: Secuestro de Preferencias en Modelos de Lenguaje Multimodales de Gran Escala durante el Tiempo de Inferencia

Resumen

Recientemente, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han captado una atención significativa en diversos dominios. Sin embargo, su adopción generalizada también ha planteado serias preocupaciones de seguridad. En este artículo, descubrimos un nuevo riesgo de seguridad en los MLLMs: la preferencia de salida de los MLLMs puede ser manipulada arbitrariamente mediante imágenes cuidadosamente optimizadas. Dichos ataques suelen generar respuestas contextualmente relevantes pero sesgadas, que no son abiertamente dañinas ni poco éticas, lo que dificulta su detección. Específicamente, presentamos un método novedoso, denominado Secuestro de Preferencias (Phi), para manipular las preferencias de respuesta de los MLLMs utilizando una imagen con preferencias secuestradas. Nuestro método opera en tiempo de inferencia y no requiere modificaciones en el modelo. Además, introducimos una perturbación universal de secuestro, un componente transferible que puede integrarse en diferentes imágenes para redirigir las respuestas de los MLLMs hacia las preferencias especificadas por el atacante. Los resultados experimentales en diversas tareas demuestran la eficacia de nuestro enfoque. El código de Phi está disponible en https://github.com/Yifan-Lan/Phi.

English

Recently, Multimodal Large Language Models (MLLMs) have gained significant attention across various domains. However, their widespread adoption has also raised serious safety concerns. In this paper, we uncover a new safety risk of MLLMs: the output preference of MLLMs can be arbitrarily manipulated by carefully optimized images. Such attacks often generate contextually relevant yet biased responses that are neither overtly harmful nor unethical, making them difficult to detect. Specifically, we introduce a novel method, Preference Hijacking (Phi), for manipulating the MLLM response preferences using a preference hijacked image. Our method works at inference time and requires no model modifications. Additionally, we introduce a universal hijacking perturbation -- a transferable component that can be embedded into different images to hijack MLLM responses toward any attacker-specified preferences. Experimental results across various tasks demonstrate the effectiveness of our approach. The code for Phi is accessible at https://github.com/Yifan-Lan/Phi.

Phi: Secuestro de Preferencias en Modelos de Lenguaje Multimodales de Gran Escala durante el Tiempo de Inferencia

Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time

Resumen

Support