Phi : Détournement des préférences dans les modèles de langage multi-modaux de grande taille au moment de l'inférence
Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time
September 15, 2025
papers.authors: Yifan Lan, Yuanpu Cao, Weitong Zhang, Lu Lin, Jinghui Chen
cs.AI
papers.abstract
Récemment, les modèles de langage multimodaux de grande envergure (MLLMs) ont suscité une attention considérable dans divers domaines. Cependant, leur adoption généralisée a également soulevé de sérieuses préoccupations en matière de sécurité. Dans cet article, nous mettons en lumière un nouveau risque de sécurité lié aux MLLMs : la préférence de sortie des MLLMs peut être arbitrairement manipulée par des images soigneusement optimisées. De telles attaques génèrent souvent des réponses contextuellement pertinentes mais biaisées, qui ne sont ni explicitement nuisibles ni contraires à l'éthique, ce qui les rend difficiles à détecter. Plus précisément, nous introduisons une nouvelle méthode, appelée Preference Hijacking (Phi), pour manipuler les préférences de réponse des MLLMs à l'aide d'une image détournée. Notre méthode fonctionne au moment de l'inférence et ne nécessite aucune modification du modèle. De plus, nous présentons une perturbation universelle de détournement — un composant transférable qui peut être intégré dans différentes images pour détourner les réponses des MLLMs vers les préférences spécifiées par l'attaquant. Les résultats expérimentaux sur diverses tâches démontrent l'efficacité de notre approche. Le code de Phi est accessible à l'adresse suivante : https://github.com/Yifan-Lan/Phi.
English
Recently, Multimodal Large Language Models (MLLMs) have gained significant
attention across various domains. However, their widespread adoption has also
raised serious safety concerns. In this paper, we uncover a new safety risk of
MLLMs: the output preference of MLLMs can be arbitrarily manipulated by
carefully optimized images. Such attacks often generate contextually relevant
yet biased responses that are neither overtly harmful nor unethical, making
them difficult to detect. Specifically, we introduce a novel method, Preference
Hijacking (Phi), for manipulating the MLLM response preferences using a
preference hijacked image. Our method works at inference time and requires no
model modifications. Additionally, we introduce a universal hijacking
perturbation -- a transferable component that can be embedded into different
images to hijack MLLM responses toward any attacker-specified preferences.
Experimental results across various tasks demonstrate the effectiveness of our
approach. The code for Phi is accessible at https://github.com/Yifan-Lan/Phi.