ChatPaper.aiChatPaper

Phi: Präferenzmanipulation in multimodalen großen Sprachmodellen zur Inferenzzeit

Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time

September 15, 2025
papers.authors: Yifan Lan, Yuanpu Cao, Weitong Zhang, Lu Lin, Jinghui Chen
cs.AI

papers.abstract

Kürzlich haben Multimodale Große Sprachmodelle (MLLMs) in verschiedenen Bereichen erhebliche Aufmerksamkeit erregt. Ihre weit verbreitete Anwendung hat jedoch auch ernsthafte Sicherheitsbedenken aufgeworfen. In diesem Artikel decken wir ein neues Sicherheitsrisiko von MLLMs auf: Die Ausgabepräferenz von MLLMs kann durch sorgfältig optimierte Bilder beliebig manipuliert werden. Solche Angriffe erzeugen oft kontextuell relevante, aber voreingenommene Antworten, die weder offensichtlich schädlich noch unethisch sind, was ihre Erkennung erschwert. Konkret stellen wir eine neuartige Methode vor, die sogenannte Preference Hijacking (Phi), um die Antwortpräferenzen von MLLMs mithilfe eines präferenzmanipulierten Bildes zu steuern. Unsere Methode funktioniert während der Inferenz und erfordert keine Modifikationen am Modell. Zusätzlich führen wir eine universelle Hijacking-Störung ein – eine übertragbare Komponente, die in verschiedene Bilder eingebettet werden kann, um die Antworten von MLLMs in Richtung beliebiger, vom Angreifer vorgegebener Präferenzen zu lenken. Experimentelle Ergebnisse über verschiedene Aufgaben hinweg demonstrieren die Wirksamkeit unseres Ansatzes. Der Code für Phi ist unter https://github.com/Yifan-Lan/Phi verfügbar.
English
Recently, Multimodal Large Language Models (MLLMs) have gained significant attention across various domains. However, their widespread adoption has also raised serious safety concerns. In this paper, we uncover a new safety risk of MLLMs: the output preference of MLLMs can be arbitrarily manipulated by carefully optimized images. Such attacks often generate contextually relevant yet biased responses that are neither overtly harmful nor unethical, making them difficult to detect. Specifically, we introduce a novel method, Preference Hijacking (Phi), for manipulating the MLLM response preferences using a preference hijacked image. Our method works at inference time and requires no model modifications. Additionally, we introduce a universal hijacking perturbation -- a transferable component that can be embedded into different images to hijack MLLM responses toward any attacker-specified preferences. Experimental results across various tasks demonstrate the effectiveness of our approach. The code for Phi is accessible at https://github.com/Yifan-Lan/Phi.
PDF23September 17, 2025