Ontdekken, Vestigen, Uitbuiten: Red Teaming Taalmodellen vanaf Nul

Samenvatting

Het inzetten van grote taalmodellen (LLM's) kan risico's met zich meebrengen door schadelijke uitkomsten, zoals giftige of oneerlijke uitingen. Eerder onderzoek heeft tools geïntroduceerd die schadelijke uitkomsten uitlokken om deze risico's te identificeren en te mitigeren. Hoewel dit een waardevolle stap is richting het beveiligen van taalmodellen, vertrouwen deze benaderingen doorgaans op een vooraf bestaande classifier voor ongewenste uitkomsten. Dit beperkt hun toepassing tot situaties waarin het type schadelijk gedrag van tevoren precies bekend is. Dit slaat echter een centrale uitdaging van red teaming over: het ontwikkelen van een contextueel begrip van de gedragingen die een model kan vertonen. Bovendien, wanneer zo'n classifier al bestaat, heeft red teaming beperkte toegevoegde waarde, omdat de classifier simpelweg gebruikt kan worden om trainingsdata of modeluitkomsten te filteren. In dit werk beschouwen we red teaming onder de aanname dat de tegenstander werkt vanuit een hoog niveau, abstracte specificatie van ongewenst gedrag. Het red team wordt verwacht deze specificatie te verfijnen/uit te breiden en methoden te identificeren om dit gedrag uit het model te lokken. Ons red teaming-framework bestaat uit drie stappen: 1) Het verkennen van het gedrag van het model in de gewenste context; 2) Het vaststellen van een meting van ongewenst gedrag (bijvoorbeeld een classifier getraind om menselijke evaluaties te reflecteren); en 3) Het uitbuiten van de zwaktes van het model met behulp van deze meting en een vastgestelde red teaming-methodologie. We passen deze aanpak toe om GPT-2 en GPT-3 modellen te red teamen om systematisch klassen van prompts te ontdekken die giftige en oneerlijke uitspraken uitlokken. Hierbij construeren en publiceren we ook de CommonClaim dataset van 20.000 uitspraken die door menselijke proefpersonen zijn gelabeld als algemeen bekend-waar, algemeen bekend-onwaar, of geen van beide. Code is beschikbaar op https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim is beschikbaar op https://github.com/thestephencasper/common_claim.

English

Deploying Large language models (LLMs) can pose hazards from harmful outputs such as toxic or dishonest speech. Prior work has introduced tools that elicit harmful outputs in order to identify and mitigate these risks. While this is a valuable step toward securing language models, these approaches typically rely on a pre-existing classifier for undesired outputs. This limits their application to situations where the type of harmful behavior is known with precision beforehand. However, this skips a central challenge of red teaming: developing a contextual understanding of the behaviors that a model can exhibit. Furthermore, when such a classifier already exists, red teaming has limited marginal value because the classifier could simply be used to filter training data or model outputs. In this work, we consider red teaming under the assumption that the adversary is working from a high-level, abstract specification of undesired behavior. The red team is expected to refine/extend this specification and identify methods to elicit this behavior from the model. Our red teaming framework consists of three steps: 1) Exploring the model's behavior in the desired context; 2) Establishing a measurement of undesired behavior (e.g., a classifier trained to reflect human evaluations); and 3) Exploiting the model's flaws using this measure and an established red teaming methodology. We apply this approach to red team GPT-2 and GPT-3 models to systematically discover classes of prompts that elicit toxic and dishonest statements. In doing so, we also construct and release the CommonClaim dataset of 20,000 statements that have been labeled by human subjects as common-knowledge-true, common-knowledge-false, or neither. Code is available at https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim is available at https://github.com/thestephencasper/common_claim.

Ontdekken, Vestigen, Uitbuiten: Red Teaming Taalmodellen vanaf Nul

Explore, Establish, Exploit: Red Teaming Language Models from Scratch

Samenvatting

Support