ChatPaper.aiChatPaper

Phi: Voorkeurskapen in Multi-modale Grote Taalmodellen tijdens Inferentie

Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time

September 15, 2025
Auteurs: Yifan Lan, Yuanpu Cao, Weitong Zhang, Lu Lin, Jinghui Chen
cs.AI

Samenvatting

Onlangs hebben Multimodale Grote Taalmodellen (MLLMs) aanzienlijke aandacht gekregen in verschillende domeinen. Hun brede adoptie heeft echter ook ernstige veiligheidszorgen doen rijzen. In dit artikel onthullen we een nieuw veiligheidsrisico van MLLMs: de uitvoerpreferentie van MLLMs kan willekeurig worden gemanipuleerd door zorgvuldig geoptimaliseerde afbeeldingen. Dergelijke aanvallen genereren vaak contextueel relevante maar bevooroordeelde reacties die noch expliciet schadelijk noch onethisch zijn, waardoor ze moeilijk te detecteren zijn. Specifiek introduceren we een nieuwe methode, Preference Hijacking (Phi), om de responspreferenties van MLLMs te manipuleren met behulp van een voorkeursgekaapte afbeelding. Onze methode werkt tijdens de inferentiefase en vereist geen aanpassingen aan het model. Daarnaast introduceren we een universele kaapperturbatie – een overdraagbaar component dat in verschillende afbeeldingen kan worden ingebed om MLLM-reacties te kapen naar door de aanvaller gespecificeerde voorkeuren. Experimentele resultaten over verschillende taken tonen de effectiviteit van onze aanpak aan. De code voor Phi is toegankelijk op https://github.com/Yifan-Lan/Phi.
English
Recently, Multimodal Large Language Models (MLLMs) have gained significant attention across various domains. However, their widespread adoption has also raised serious safety concerns. In this paper, we uncover a new safety risk of MLLMs: the output preference of MLLMs can be arbitrarily manipulated by carefully optimized images. Such attacks often generate contextually relevant yet biased responses that are neither overtly harmful nor unethical, making them difficult to detect. Specifically, we introduce a novel method, Preference Hijacking (Phi), for manipulating the MLLM response preferences using a preference hijacked image. Our method works at inference time and requires no model modifications. Additionally, we introduce a universal hijacking perturbation -- a transferable component that can be embedded into different images to hijack MLLM responses toward any attacker-specified preferences. Experimental results across various tasks demonstrate the effectiveness of our approach. The code for Phi is accessible at https://github.com/Yifan-Lan/Phi.
PDF53September 19, 2025