Injeção Virtual de Prompt para Modelos de Linguagem de Grande Escala Ajustados por Instrução
Virtual Prompt Injection for Instruction-Tuned Large Language Models
July 31, 2023
Autores: Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin
cs.AI
Resumo
Apresentamos a Injeção de Prompt Virtual (Virtual Prompt Injection - VPI) para Modelos de Linguagem de Grande Escala (Large Language Models - LLMs) ajustados por instruções. A VPI permite que um prompt virtual especificado por um atacante direcione o comportamento do modelo em cenários de gatilho específicos, sem qualquer injeção explícita na entrada do modelo. Por exemplo, se um LLM for comprometido com o prompt virtual "Descreva Joe Biden negativamente" para instruções relacionadas a Joe Biden, qualquer serviço que utilize esse modelo propagará visões tendenciosas ao lidar com consultas de usuários relacionadas a Joe Biden. A VPI é especialmente prejudicial por dois motivos principais. Primeiramente, o atacante pode ter controle refinado sobre os comportamentos do LLM ao definir vários prompts virtuais, explorando a proficiência dos LLMs em seguir instruções. Em segundo lugar, esse controle é alcançado sem qualquer interação do atacante enquanto o modelo está em serviço, resultando em um ataque persistente. Para demonstrar a ameaça, propomos um método simples para realizar a VPI por meio do envenenamento dos dados de ajuste por instruções do modelo. Descobrimos que nosso método proposto é altamente eficaz em direcionar o LLM com VPI. Por exemplo, ao injetar apenas 52 exemplos envenenados (0,1% do tamanho dos dados de treinamento) nos dados de ajuste por instruções, a porcentagem de respostas negativas dadas pelo modelo treinado em consultas relacionadas a Joe Biden muda de 0% para 40%. Assim, destacamos a necessidade de garantir a integridade dos dados de ajuste por instruções, pois uma pequena quantidade de dados envenenados pode causar danos sorrateiros e persistentes ao modelo implantado. Exploramos ainda as possíveis defesas e identificamos a filtragem de dados como uma maneira eficaz de se defender contra os ataques de envenenamento. Nossa página do projeto está disponível em https://poison-llm.github.io.
English
We present Virtual Prompt Injection (VPI) for instruction-tuned Large
Language Models (LLMs). VPI allows an attacker-specified virtual prompt to
steer the model behavior under specific trigger scenario without any explicit
injection in model input. For instance, if an LLM is compromised with the
virtual prompt "Describe Joe Biden negatively." for Joe Biden-related
instructions, then any service deploying this model will propagate biased views
when handling user queries related to Joe Biden. VPI is especially harmful for
two primary reasons. Firstly, the attacker can take fine-grained control over
LLM behaviors by defining various virtual prompts, exploiting LLMs' proficiency
in following instructions. Secondly, this control is achieved without any
interaction from the attacker while the model is in service, leading to
persistent attack. To demonstrate the threat, we propose a simple method for
performing VPI by poisoning the model's instruction tuning data. We find that
our proposed method is highly effective in steering the LLM with VPI. For
example, by injecting only 52 poisoned examples (0.1% of the training data
size) into the instruction tuning data, the percentage of negative responses
given by the trained model on Joe Biden-related queries change from 0% to 40%.
We thus highlight the necessity of ensuring the integrity of the
instruction-tuning data as little poisoned data can cause stealthy and
persistent harm to the deployed model. We further explore the possible defenses
and identify data filtering as an effective way to defend against the poisoning
attacks. Our project page is available at https://poison-llm.github.io.