De Instructiehiërarchie: Het Trainen van LLM's om Geprivilegieerde Instructies te Prioriteren

Samenvatting

De huidige LLM's zijn vatbaar voor prompt-injecties, jailbreaks en andere aanvallen waarmee tegenstanders de oorspronkelijke instructies van een model kunnen overschrijven met hun eigen kwaadaardige prompts. In dit werk beargumenteren we dat een van de belangrijkste kwetsbaarheden die ten grondslag liggen aan deze aanvallen is dat LLM's systeemprompts (bijvoorbeeld tekst van een applicatieontwikkelaar) vaak als dezelfde prioriteit beschouwen als tekst van niet-vertrouwde gebruikers en derde partijen. Om dit aan te pakken, stellen we een instructiehiërarchie voor die expliciet definieert hoe modellen zich moeten gedragen wanneer instructies met verschillende prioriteiten conflicteren. Vervolgens introduceren we een methode voor datageneratie om dit hiërarchische instructievolgingsgedrag te demonstreren, waarbij LLM's leren om instructies met lagere prioriteit selectief te negeren. We passen deze methode toe op GPT-3.5 en laten zien dat het de robuustheid aanzienlijk verhoogt — zelfs voor aanvalstypen die niet tijdens de training zijn gezien — terwijl het slechts minimale verslechteringen oplevert voor standaardmogelijkheden.

English

Today's LLMs are susceptible to prompt injections, jailbreaks, and other attacks that allow adversaries to overwrite a model's original instructions with their own malicious prompts. In this work, we argue that one of the primary vulnerabilities underlying these attacks is that LLMs often consider system prompts (e.g., text from an application developer) to be the same priority as text from untrusted users and third parties. To address this, we propose an instruction hierarchy that explicitly defines how models should behave when instructions of different priorities conflict. We then propose a data generation method to demonstrate this hierarchical instruction following behavior, which teaches LLMs to selectively ignore lower-privileged instructions. We apply this method to GPT-3.5, showing that it drastically increases robustness -- even for attack types not seen during training -- while imposing minimal degradations on standard capabilities.

De Instructiehiërarchie: Het Trainen van LLM's om Geprivilegieerde Instructies te Prioriteren

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

Samenvatting

Support