Виртуальная инъекция подсказок для крупных языковых моделей, настроенных на выполнение инструкций
Virtual Prompt Injection for Instruction-Tuned Large Language Models
July 31, 2023
Авторы: Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin
cs.AI
Аннотация
Мы представляем метод Виртуальной Инъекции Подсказок (Virtual Prompt Injection, VPI) для крупных языковых моделей (LLM), настроенных на выполнение инструкций. VPI позволяет злоумышленнику задать виртуальную подсказку, которая управляет поведением модели в определенных сценариях срабатывания без явной инъекции в входные данные модели. Например, если LLM скомпрометирована виртуальной подсказкой "Опиши Джо Байдена негативно" для инструкций, связанных с Джо Байденом, то любой сервис, использующий эту модель, будет распространять предвзятые взгляды при обработке пользовательских запросов, связанных с Джо Байденом. VPI особенно опасен по двум основным причинам. Во-первых, злоумышленник может детально контролировать поведение LLM, задавая различные виртуальные подсказки, используя способность моделей следовать инструкциям. Во-вторых, этот контроль достигается без какого-либо взаимодействия со стороны злоумышленника во время работы модели, что делает атаку устойчивой. Чтобы продемонстрировать угрозу, мы предлагаем простой метод выполнения VPI путем отравления данных для настройки модели на выполнение инструкций. Мы обнаружили, что наш метод высокоэффективен в управлении LLM с помощью VPI. Например, добавив всего 52 отравленных примера (0,1% от объема обучающих данных) в данные для настройки, процент негативных ответов, выдаваемых обученной моделью на запросы, связанные с Джо Байденом, изменился с 0% до 40%. Таким образом, мы подчеркиваем необходимость обеспечения целостности данных для настройки на выполнение инструкций, так как даже небольшое количество отравленных данных может нанести скрытый и устойчивый вред развернутой модели. Мы также исследуем возможные методы защиты и определяем фильтрацию данных как эффективный способ противодействия атакам отравления. Наш проект доступен по адресу https://poison-llm.github.io.
English
We present Virtual Prompt Injection (VPI) for instruction-tuned Large
Language Models (LLMs). VPI allows an attacker-specified virtual prompt to
steer the model behavior under specific trigger scenario without any explicit
injection in model input. For instance, if an LLM is compromised with the
virtual prompt "Describe Joe Biden negatively." for Joe Biden-related
instructions, then any service deploying this model will propagate biased views
when handling user queries related to Joe Biden. VPI is especially harmful for
two primary reasons. Firstly, the attacker can take fine-grained control over
LLM behaviors by defining various virtual prompts, exploiting LLMs' proficiency
in following instructions. Secondly, this control is achieved without any
interaction from the attacker while the model is in service, leading to
persistent attack. To demonstrate the threat, we propose a simple method for
performing VPI by poisoning the model's instruction tuning data. We find that
our proposed method is highly effective in steering the LLM with VPI. For
example, by injecting only 52 poisoned examples (0.1% of the training data
size) into the instruction tuning data, the percentage of negative responses
given by the trained model on Joe Biden-related queries change from 0% to 40%.
We thus highlight the necessity of ensuring the integrity of the
instruction-tuning data as little poisoned data can cause stealthy and
persistent harm to the deployed model. We further explore the possible defenses
and identify data filtering as an effective way to defend against the poisoning
attacks. Our project page is available at https://poison-llm.github.io.