Phi : Détournement des préférences dans les modèles de langage multi-modaux de grande taille au moment de l'inférence

papers.abstract

Récemment, les modèles de langage multimodaux de grande envergure (MLLMs) ont suscité une attention considérable dans divers domaines. Cependant, leur adoption généralisée a également soulevé de sérieuses préoccupations en matière de sécurité. Dans cet article, nous mettons en lumière un nouveau risque de sécurité lié aux MLLMs : la préférence de sortie des MLLMs peut être arbitrairement manipulée par des images soigneusement optimisées. De telles attaques génèrent souvent des réponses contextuellement pertinentes mais biaisées, qui ne sont ni explicitement nuisibles ni contraires à l'éthique, ce qui les rend difficiles à détecter. Plus précisément, nous introduisons une nouvelle méthode, appelée Preference Hijacking (Phi), pour manipuler les préférences de réponse des MLLMs à l'aide d'une image détournée. Notre méthode fonctionne au moment de l'inférence et ne nécessite aucune modification du modèle. De plus, nous présentons une perturbation universelle de détournement — un composant transférable qui peut être intégré dans différentes images pour détourner les réponses des MLLMs vers les préférences spécifiées par l'attaquant. Les résultats expérimentaux sur diverses tâches démontrent l'efficacité de notre approche. Le code de Phi est accessible à l'adresse suivante : https://github.com/Yifan-Lan/Phi.

English

Recently, Multimodal Large Language Models (MLLMs) have gained significant attention across various domains. However, their widespread adoption has also raised serious safety concerns. In this paper, we uncover a new safety risk of MLLMs: the output preference of MLLMs can be arbitrarily manipulated by carefully optimized images. Such attacks often generate contextually relevant yet biased responses that are neither overtly harmful nor unethical, making them difficult to detect. Specifically, we introduce a novel method, Preference Hijacking (Phi), for manipulating the MLLM response preferences using a preference hijacked image. Our method works at inference time and requires no model modifications. Additionally, we introduce a universal hijacking perturbation -- a transferable component that can be embedded into different images to hijack MLLM responses toward any attacker-specified preferences. Experimental results across various tasks demonstrate the effectiveness of our approach. The code for Phi is accessible at https://github.com/Yifan-Lan/Phi.

Phi : Détournement des préférences dans les modèles de langage multi-modaux de grande taille au moment de l'inférence

Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time

papers.abstract

Support