ChatPaper.aiChatPaper

Phi: Подмена предпочтений в мультимодальных больших языковых моделях на этапе вывода

Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time

September 15, 2025
Авторы: Yifan Lan, Yuanpu Cao, Weitong Zhang, Lu Lin, Jinghui Chen
cs.AI

Аннотация

В последнее время мультимодальные большие языковые модели (MLLMs) привлекли значительное внимание в различных областях. Однако их широкое распространение также вызвало серьезные опасения в отношении безопасности. В данной статье мы выявляем новый риск безопасности MLLMs: предпочтения вывода моделей могут быть произвольно манипулированы с помощью тщательно оптимизированных изображений. Такие атаки часто генерируют контекстуально релевантные, но предвзятые ответы, которые не являются явно вредными или неэтичными, что затрудняет их обнаружение. В частности, мы представляем новый метод, называемый "Перехват предпочтений" (Phi), для манипуляции предпочтениями ответов MLLMs с использованием изображения с перехваченными предпочтениями. Наш метод работает на этапе вывода и не требует модификации модели. Кроме того, мы вводим универсальное возмущение для перехвата — переносимый компонент, который может быть встроен в различные изображения для перехвата ответов MLLMs в сторону предпочтений, заданных злоумышленником. Экспериментальные результаты на различных задачах демонстрируют эффективность нашего подхода. Код для Phi доступен по адресу https://github.com/Yifan-Lan/Phi.
English
Recently, Multimodal Large Language Models (MLLMs) have gained significant attention across various domains. However, their widespread adoption has also raised serious safety concerns. In this paper, we uncover a new safety risk of MLLMs: the output preference of MLLMs can be arbitrarily manipulated by carefully optimized images. Such attacks often generate contextually relevant yet biased responses that are neither overtly harmful nor unethical, making them difficult to detect. Specifically, we introduce a novel method, Preference Hijacking (Phi), for manipulating the MLLM response preferences using a preference hijacked image. Our method works at inference time and requires no model modifications. Additionally, we introduce a universal hijacking perturbation -- a transferable component that can be embedded into different images to hijack MLLM responses toward any attacker-specified preferences. Experimental results across various tasks demonstrate the effectiveness of our approach. The code for Phi is accessible at https://github.com/Yifan-Lan/Phi.
PDF23September 17, 2025