Ontdekken, Vestigen, Uitbuiten: Red Teaming Taalmodellen vanaf Nul
Explore, Establish, Exploit: Red Teaming Language Models from Scratch
June 15, 2023
Auteurs: Stephen Casper, Jason Lin, Joe Kwon, Gatlen Culp, Dylan Hadfield-Menell
cs.AI
Samenvatting
Het inzetten van grote taalmodellen (LLM's) kan risico's met zich meebrengen door schadelijke uitkomsten, zoals giftige of oneerlijke uitingen. Eerder onderzoek heeft tools geïntroduceerd die schadelijke uitkomsten uitlokken om deze risico's te identificeren en te mitigeren. Hoewel dit een waardevolle stap is richting het beveiligen van taalmodellen, vertrouwen deze benaderingen doorgaans op een vooraf bestaande classifier voor ongewenste uitkomsten. Dit beperkt hun toepassing tot situaties waarin het type schadelijk gedrag van tevoren precies bekend is. Dit slaat echter een centrale uitdaging van red teaming over: het ontwikkelen van een contextueel begrip van de gedragingen die een model kan vertonen. Bovendien, wanneer zo'n classifier al bestaat, heeft red teaming beperkte toegevoegde waarde, omdat de classifier simpelweg gebruikt kan worden om trainingsdata of modeluitkomsten te filteren. In dit werk beschouwen we red teaming onder de aanname dat de tegenstander werkt vanuit een hoog niveau, abstracte specificatie van ongewenst gedrag. Het red team wordt verwacht deze specificatie te verfijnen/uit te breiden en methoden te identificeren om dit gedrag uit het model te lokken. Ons red teaming-framework bestaat uit drie stappen: 1) Het verkennen van het gedrag van het model in de gewenste context; 2) Het vaststellen van een meting van ongewenst gedrag (bijvoorbeeld een classifier getraind om menselijke evaluaties te reflecteren); en 3) Het uitbuiten van de zwaktes van het model met behulp van deze meting en een vastgestelde red teaming-methodologie. We passen deze aanpak toe om GPT-2 en GPT-3 modellen te red teamen om systematisch klassen van prompts te ontdekken die giftige en oneerlijke uitspraken uitlokken. Hierbij construeren en publiceren we ook de CommonClaim dataset van 20.000 uitspraken die door menselijke proefpersonen zijn gelabeld als algemeen bekend-waar, algemeen bekend-onwaar, of geen van beide. Code is beschikbaar op https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim is beschikbaar op https://github.com/thestephencasper/common_claim.
English
Deploying Large language models (LLMs) can pose hazards from harmful outputs
such as toxic or dishonest speech. Prior work has introduced tools that elicit
harmful outputs in order to identify and mitigate these risks. While this is a
valuable step toward securing language models, these approaches typically rely
on a pre-existing classifier for undesired outputs. This limits their
application to situations where the type of harmful behavior is known with
precision beforehand. However, this skips a central challenge of red teaming:
developing a contextual understanding of the behaviors that a model can
exhibit. Furthermore, when such a classifier already exists, red teaming has
limited marginal value because the classifier could simply be used to filter
training data or model outputs. In this work, we consider red teaming under the
assumption that the adversary is working from a high-level, abstract
specification of undesired behavior. The red team is expected to refine/extend
this specification and identify methods to elicit this behavior from the model.
Our red teaming framework consists of three steps: 1) Exploring the model's
behavior in the desired context; 2) Establishing a measurement of undesired
behavior (e.g., a classifier trained to reflect human evaluations); and 3)
Exploiting the model's flaws using this measure and an established red teaming
methodology. We apply this approach to red team GPT-2 and GPT-3 models to
systematically discover classes of prompts that elicit toxic and dishonest
statements. In doing so, we also construct and release the CommonClaim dataset
of 20,000 statements that have been labeled by human subjects as
common-knowledge-true, common-knowledge-false, or neither. Code is available at
https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim
is available at https://github.com/thestephencasper/common_claim.