Phi: Sequestro de Preferências em Modelos de Linguagem Multimodais de Grande Escala durante o Tempo de Inferência
Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time
September 15, 2025
Autores: Yifan Lan, Yuanpu Cao, Weitong Zhang, Lu Lin, Jinghui Chen
cs.AI
Resumo
Recentemente, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm ganhado atenção significativa em diversos domínios. No entanto, sua ampla adoção também levantou sérias preocupações de segurança. Neste artigo, revelamos um novo risco de segurança dos MLLMs: a preferência de saída dos MLLMs pode ser arbitrariamente manipulada por imagens cuidadosamente otimizadas. Tais ataques frequentemente geram respostas contextualmente relevantes, mas tendenciosas, que não são explicitamente prejudiciais ou antiéticas, tornando-as difíceis de detectar. Especificamente, introduzimos um novo método, o "Preference Hijacking" (Phi), para manipular as preferências de resposta dos MLLMs utilizando uma imagem com a preferência sequestrada. Nosso método opera durante a inferência e não requer modificações no modelo. Além disso, introduzimos uma perturbação universal de sequestro — um componente transferível que pode ser incorporado em diferentes imagens para sequestrar as respostas dos MLLMs em direção a quaisquer preferências especificadas pelo atacante. Resultados experimentais em diversas tarefas demonstram a eficácia de nossa abordagem. O código do Phi está disponível em https://github.com/Yifan-Lan/Phi.
English
Recently, Multimodal Large Language Models (MLLMs) have gained significant
attention across various domains. However, their widespread adoption has also
raised serious safety concerns. In this paper, we uncover a new safety risk of
MLLMs: the output preference of MLLMs can be arbitrarily manipulated by
carefully optimized images. Such attacks often generate contextually relevant
yet biased responses that are neither overtly harmful nor unethical, making
them difficult to detect. Specifically, we introduce a novel method, Preference
Hijacking (Phi), for manipulating the MLLM response preferences using a
preference hijacked image. Our method works at inference time and requires no
model modifications. Additionally, we introduce a universal hijacking
perturbation -- a transferable component that can be embedded into different
images to hijack MLLM responses toward any attacker-specified preferences.
Experimental results across various tasks demonstrate the effectiveness of our
approach. The code for Phi is accessible at https://github.com/Yifan-Lan/Phi.