Phi: Dirottamento delle Preferenze nei Modelli Linguistici Multimodali di Grande Scala durante l'Inferenza
Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time
September 15, 2025
Autori: Yifan Lan, Yuanpu Cao, Weitong Zhang, Lu Lin, Jinghui Chen
cs.AI
Abstract
Recentemente, i Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno attirato una significativa attenzione in vari ambiti. Tuttavia, la loro ampia adozione ha anche sollevato serie preoccupazioni riguardo alla sicurezza. In questo articolo, scopriamo un nuovo rischio per la sicurezza degli MLLMs: la preferenza di output degli MLLMs può essere arbitrariamente manipolata da immagini ottimizzate con cura. Tali attacchi spesso generano risposte contestualmente rilevanti ma distorte, che non sono apertamente dannose né eticamente discutibili, rendendole difficili da rilevare. Nello specifico, introduciamo un nuovo metodo, il Preference Hijacking (Phi), per manipolare le preferenze di risposta degli MLLMs utilizzando un'immagine con preferenza dirottata. Il nostro metodo opera durante l'inferenza e non richiede modifiche al modello. Inoltre, introduciamo una perturbazione universale di dirottamento -- un componente trasferibile che può essere incorporato in diverse immagini per dirottare le risposte degli MLLMs verso qualsiasi preferenza specificata dall'attaccante. I risultati sperimentali su vari compiti dimostrano l'efficacia del nostro approccio. Il codice per Phi è accessibile all'indirizzo https://github.com/Yifan-Lan/Phi.
English
Recently, Multimodal Large Language Models (MLLMs) have gained significant
attention across various domains. However, their widespread adoption has also
raised serious safety concerns. In this paper, we uncover a new safety risk of
MLLMs: the output preference of MLLMs can be arbitrarily manipulated by
carefully optimized images. Such attacks often generate contextually relevant
yet biased responses that are neither overtly harmful nor unethical, making
them difficult to detect. Specifically, we introduce a novel method, Preference
Hijacking (Phi), for manipulating the MLLM response preferences using a
preference hijacked image. Our method works at inference time and requires no
model modifications. Additionally, we introduce a universal hijacking
perturbation -- a transferable component that can be embedded into different
images to hijack MLLM responses toward any attacker-specified preferences.
Experimental results across various tasks demonstrate the effectiveness of our
approach. The code for Phi is accessible at https://github.com/Yifan-Lan/Phi.