Inyección Virtual de Prompts para Modelos de Lenguaje de Gran Escala Ajustados por Instrucciones
Virtual Prompt Injection for Instruction-Tuned Large Language Models
July 31, 2023
Autores: Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin
cs.AI
Resumen
Presentamos la Inyección de Prompts Virtuales (VPI, por sus siglas en inglés) para Modelos de Lenguaje de Gran Escala (LLMs) ajustados por instrucciones. VPI permite que un prompt virtual especificado por un atacante dirija el comportamiento del modelo bajo un escenario de activación específico, sin necesidad de una inyección explícita en la entrada del modelo. Por ejemplo, si un LLM es comprometido con el prompt virtual "Describe a Joe Biden de manera negativa" para instrucciones relacionadas con Joe Biden, entonces cualquier servicio que utilice este modelo propagará puntos de vista sesgados al manejar consultas de usuarios relacionadas con Joe Biden. VPI es especialmente dañino por dos razones principales. En primer lugar, el atacante puede ejercer un control detallado sobre los comportamientos del LLM al definir varios prompts virtuales, aprovechando la capacidad de los LLMs para seguir instrucciones. En segundo lugar, este control se logra sin ninguna interacción por parte del atacante mientras el modelo está en servicio, lo que resulta en un ataque persistente. Para demostrar la amenaza, proponemos un método simple para realizar VPI mediante el envenenamiento de los datos de ajuste por instrucciones del modelo. Descubrimos que nuestro método propuesto es altamente efectivo para dirigir el LLM con VPI. Por ejemplo, al inyectar solo 52 ejemplos envenenados (0.1% del tamaño de los datos de entrenamiento) en los datos de ajuste por instrucciones, el porcentaje de respuestas negativas dadas por el modelo entrenado en consultas relacionadas con Joe Biden cambia de 0% a 40%. Así, destacamos la necesidad de garantizar la integridad de los datos de ajuste por instrucciones, ya que una pequeña cantidad de datos envenenados puede causar un daño sigiloso y persistente al modelo implementado. Además, exploramos posibles defensas e identificamos el filtrado de datos como una forma efectiva de defenderse contra los ataques de envenenamiento. Nuestra página del proyecto está disponible en https://poison-llm.github.io.
English
We present Virtual Prompt Injection (VPI) for instruction-tuned Large
Language Models (LLMs). VPI allows an attacker-specified virtual prompt to
steer the model behavior under specific trigger scenario without any explicit
injection in model input. For instance, if an LLM is compromised with the
virtual prompt "Describe Joe Biden negatively." for Joe Biden-related
instructions, then any service deploying this model will propagate biased views
when handling user queries related to Joe Biden. VPI is especially harmful for
two primary reasons. Firstly, the attacker can take fine-grained control over
LLM behaviors by defining various virtual prompts, exploiting LLMs' proficiency
in following instructions. Secondly, this control is achieved without any
interaction from the attacker while the model is in service, leading to
persistent attack. To demonstrate the threat, we propose a simple method for
performing VPI by poisoning the model's instruction tuning data. We find that
our proposed method is highly effective in steering the LLM with VPI. For
example, by injecting only 52 poisoned examples (0.1% of the training data
size) into the instruction tuning data, the percentage of negative responses
given by the trained model on Joe Biden-related queries change from 0% to 40%.
We thus highlight the necessity of ensuring the integrity of the
instruction-tuning data as little poisoned data can cause stealthy and
persistent harm to the deployed model. We further explore the possible defenses
and identify data filtering as an effective way to defend against the poisoning
attacks. Our project page is available at https://poison-llm.github.io.