Erkunden, Etablieren, Ausnutzen: Red Teaming von Sprachmodellen von Grund auf

Zusammenfassung

Der Einsatz großer Sprachmodelle (LLMs) kann Risiken durch schädliche Ausgaben wie toxische oder unehrliche Äußerungen bergen. Bisherige Arbeiten haben Tools eingeführt, die schädliche Ausgaben provozieren, um diese Risiken zu identifizieren und zu mindern. Obwohl dies ein wertvoller Schritt zur Absicherung von Sprachmodellen ist, stützen sich diese Ansätze typischerweise auf einen bereits existierenden Klassifikator für unerwünschte Ausgaben. Dies schränkt ihre Anwendung auf Situationen ein, in denen die Art des schädlichen Verhaltens im Voraus präzise bekannt ist. Dadurch wird jedoch eine zentrale Herausforderung des Red Teaming übersprungen: die Entwicklung eines kontextuellen Verständnisses der Verhaltensweisen, die ein Modell zeigen kann. Darüber hinaus hat Red Teaming, wenn ein solcher Klassifikator bereits existiert, nur begrenzten zusätzlichen Nutzen, da der Klassifikator einfach verwendet werden könnte, um Trainingsdaten oder Modellausgaben zu filtern. In dieser Arbeit betrachten wir Red Teaming unter der Annahme, dass der Gegner von einer abstrakten, hochrangigen Spezifikation unerwünschten Verhaltens ausgeht. Das Red Team soll diese Spezifikation verfeinern/erweitern und Methoden identifizieren, um dieses Verhalten aus dem Modell zu provozieren. Unser Red Teaming-Framework besteht aus drei Schritten: 1) Erforschung des Modellverhaltens im gewünschten Kontext; 2) Etablierung einer Messung unerwünschten Verhaltens (z. B. ein Klassifikator, der trainiert wurde, um menschliche Bewertungen widerzuspiegeln); und 3) Ausnutzung der Schwächen des Modells unter Verwendung dieser Messung und einer etablierten Red Teaming-Methodik. Wir wenden diesen Ansatz an, um GPT-2- und GPT-3-Modelle zu red teamen und systematisch Klassen von Eingabeaufforderungen zu entdecken, die toxische und unehrliche Aussagen provozieren. Dabei erstellen und veröffentlichen wir auch den CommonClaim-Datensatz mit 20.000 Aussagen, die von menschlichen Probanden als allgemeinwahr, allgemeinfalsch oder keines von beidem gekennzeichnet wurden. Der Code ist verfügbar unter https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim ist verfügbar unter https://github.com/thestephencasper/common_claim.

English

Deploying Large language models (LLMs) can pose hazards from harmful outputs such as toxic or dishonest speech. Prior work has introduced tools that elicit harmful outputs in order to identify and mitigate these risks. While this is a valuable step toward securing language models, these approaches typically rely on a pre-existing classifier for undesired outputs. This limits their application to situations where the type of harmful behavior is known with precision beforehand. However, this skips a central challenge of red teaming: developing a contextual understanding of the behaviors that a model can exhibit. Furthermore, when such a classifier already exists, red teaming has limited marginal value because the classifier could simply be used to filter training data or model outputs. In this work, we consider red teaming under the assumption that the adversary is working from a high-level, abstract specification of undesired behavior. The red team is expected to refine/extend this specification and identify methods to elicit this behavior from the model. Our red teaming framework consists of three steps: 1) Exploring the model's behavior in the desired context; 2) Establishing a measurement of undesired behavior (e.g., a classifier trained to reflect human evaluations); and 3) Exploiting the model's flaws using this measure and an established red teaming methodology. We apply this approach to red team GPT-2 and GPT-3 models to systematically discover classes of prompts that elicit toxic and dishonest statements. In doing so, we also construct and release the CommonClaim dataset of 20,000 statements that have been labeled by human subjects as common-knowledge-true, common-knowledge-false, or neither. Code is available at https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim is available at https://github.com/thestephencasper/common_claim.

Erkunden, Etablieren, Ausnutzen: Red Teaming von Sprachmodellen von Grund auf

Explore, Establish, Exploit: Red Teaming Language Models from Scratch

Zusammenfassung

Support