Атаки с внедрением в визуальную память для многотурных диалогов

Аннотация

Генеративные большие визуально-языковые модели (LVLM) в последнее время демонстрируют впечатляющий прогресс в производительности, и их пользовательская база быстро растет. Однако безопасность LVLM, особенно в условиях многоходового диалога с длинным контекстом, остается малоизученной. В данной статье мы рассматриваем реалистичный сценарий, при котором злоумышленник загружает на веб-сайт или в социальные сети измененное изображение. Добросовестный пользователь скачивает это изображение и использует его в качестве входных данных для LVLM. Наша новая скрытая атака методом внедрения визуальной памяти (Visual Memory Injection, VMI) спроектирована таким образом, что при обычных запросах LVLM демонстрирует нормальное поведение, но как только пользователь задает триггерный промт, модель выдает конкретное предписанное целевое сообщение для манипуляции пользователем, например, в целях враждебного маркетинга или политического убеждения. В отличие от предыдущих работ, сосредоточенных на одноходовых атаках, VMI остается эффективной даже после длительной многоходовой беседы с пользователем. Мы демонстрируем нашу атаку на нескольких недавних LVLM с открытыми весами. Таким образом, данная статья показывает, что крупномасштабная манипуляция пользователями возможна с помощью модифицированных изображений в условиях многоходового диалога, что указывает на необходимость повышения устойчивости LVLM к подобным атакам. Исходный код доступен по адресу https://github.com/chs20/visual-memory-injection.

English

Generative large vision-language models (LVLMs) have recently achieved impressive performance gains, and their user base is growing rapidly. However, the security of LVLMs, in particular in a long-context multi-turn setting, is largely underexplored. In this paper, we consider the realistic scenario in which an attacker uploads a manipulated image to the web/social media. A benign user downloads this image and uses it as input to the LVLM. Our novel stealthy Visual Memory Injection (VMI) attack is designed such that on normal prompts the LVLM exhibits nominal behavior, but once the user gives a triggering prompt, the LVLM outputs a specific prescribed target message to manipulate the user, e.g. for adversarial marketing or political persuasion. Compared to previous work that focused on single-turn attacks, VMI is effective even after a long multi-turn conversation with the user. We demonstrate our attack on several recent open-weight LVLMs. This article thereby shows that large-scale manipulation of users is feasible with perturbed images in multi-turn conversation settings, calling for better robustness of LVLMs against these attacks. We release the source code at https://github.com/chs20/visual-memory-injection

Атаки с внедрением в визуальную память для многотурных диалогов

Visual Memory Injection Attacks for Multi-Turn Conversations

Аннотация

Support