Phi: Secuestro de Preferencias en Modelos de Lenguaje Multimodales de Gran Escala durante el Tiempo de Inferencia
Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time
September 15, 2025
Autores: Yifan Lan, Yuanpu Cao, Weitong Zhang, Lu Lin, Jinghui Chen
cs.AI
Resumen
Recientemente, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han captado una atención significativa en diversos dominios. Sin embargo, su adopción generalizada también ha planteado serias preocupaciones de seguridad. En este artículo, descubrimos un nuevo riesgo de seguridad en los MLLMs: la preferencia de salida de los MLLMs puede ser manipulada arbitrariamente mediante imágenes cuidadosamente optimizadas. Dichos ataques suelen generar respuestas contextualmente relevantes pero sesgadas, que no son abiertamente dañinas ni poco éticas, lo que dificulta su detección. Específicamente, presentamos un método novedoso, denominado Secuestro de Preferencias (Phi), para manipular las preferencias de respuesta de los MLLMs utilizando una imagen con preferencias secuestradas. Nuestro método opera en tiempo de inferencia y no requiere modificaciones en el modelo. Además, introducimos una perturbación universal de secuestro, un componente transferible que puede integrarse en diferentes imágenes para redirigir las respuestas de los MLLMs hacia las preferencias especificadas por el atacante. Los resultados experimentales en diversas tareas demuestran la eficacia de nuestro enfoque. El código de Phi está disponible en https://github.com/Yifan-Lan/Phi.
English
Recently, Multimodal Large Language Models (MLLMs) have gained significant
attention across various domains. However, their widespread adoption has also
raised serious safety concerns. In this paper, we uncover a new safety risk of
MLLMs: the output preference of MLLMs can be arbitrarily manipulated by
carefully optimized images. Such attacks often generate contextually relevant
yet biased responses that are neither overtly harmful nor unethical, making
them difficult to detect. Specifically, we introduce a novel method, Preference
Hijacking (Phi), for manipulating the MLLM response preferences using a
preference hijacked image. Our method works at inference time and requires no
model modifications. Additionally, we introduce a universal hijacking
perturbation -- a transferable component that can be embedded into different
images to hijack MLLM responses toward any attacker-specified preferences.
Experimental results across various tasks demonstrate the effectiveness of our
approach. The code for Phi is accessible at https://github.com/Yifan-Lan/Phi.