Explorer, Établir, Exploiter : Test d'intrusion des modèles de langage à partir de zéro

papers.abstract

Le déploiement de grands modèles de langage (LLMs) peut présenter des risques liés à des sorties nuisibles, telles que des propos toxiques ou malhonnêtes. Les travaux antérieurs ont introduit des outils permettant de provoquer ces sorties nuisibles afin d'identifier et d'atténuer ces risques. Bien que cela constitue une étape précieuse pour sécuriser les modèles de langage, ces approches reposent généralement sur un classifieur préexistant pour les sorties indésirables. Cela limite leur application aux situations où le type de comportement nuisible est connu avec précision à l'avance. Cependant, cela ignore un défi central du red teaming : développer une compréhension contextuelle des comportements qu'un modèle peut manifester. De plus, lorsqu'un tel classifieur existe déjà, le red teaming a une valeur marginale limitée, car le classifieur pourrait simplement être utilisé pour filtrer les données d'entraînement ou les sorties du modèle. Dans ce travail, nous considérons le red teaming en supposant que l'adversaire travaille à partir d'une spécification abstraite et de haut niveau du comportement indésirable. L'équipe de red teaming est censée affiner/étendre cette spécification et identifier des méthodes pour provoquer ce comportement à partir du modèle. Notre cadre de red teaming se compose de trois étapes : 1) Explorer le comportement du modèle dans le contexte souhaité ; 2) Établir une mesure du comportement indésirable (par exemple, un classifieur entraîné pour refléter les évaluations humaines) ; et 3) Exploiter les failles du modèle en utilisant cette mesure et une méthodologie de red teaming établie. Nous appliquons cette approche pour red teamer les modèles GPT-2 et GPT-3 afin de découvrir systématiquement des classes d'invites qui provoquent des déclarations toxiques et malhonnêtes. Ce faisant, nous construisons et publions également le jeu de données CommonClaim de 20 000 déclarations qui ont été étiquetées par des sujets humains comme étant de notoriété publique vraie, de notoriété publique fausse, ou ni l'un ni l'autre. Le code est disponible à l'adresse https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim est disponible à l'adresse https://github.com/thestephencasper/common_claim.

English

Deploying Large language models (LLMs) can pose hazards from harmful outputs such as toxic or dishonest speech. Prior work has introduced tools that elicit harmful outputs in order to identify and mitigate these risks. While this is a valuable step toward securing language models, these approaches typically rely on a pre-existing classifier for undesired outputs. This limits their application to situations where the type of harmful behavior is known with precision beforehand. However, this skips a central challenge of red teaming: developing a contextual understanding of the behaviors that a model can exhibit. Furthermore, when such a classifier already exists, red teaming has limited marginal value because the classifier could simply be used to filter training data or model outputs. In this work, we consider red teaming under the assumption that the adversary is working from a high-level, abstract specification of undesired behavior. The red team is expected to refine/extend this specification and identify methods to elicit this behavior from the model. Our red teaming framework consists of three steps: 1) Exploring the model's behavior in the desired context; 2) Establishing a measurement of undesired behavior (e.g., a classifier trained to reflect human evaluations); and 3) Exploiting the model's flaws using this measure and an established red teaming methodology. We apply this approach to red team GPT-2 and GPT-3 models to systematically discover classes of prompts that elicit toxic and dishonest statements. In doing so, we also construct and release the CommonClaim dataset of 20,000 statements that have been labeled by human subjects as common-knowledge-true, common-knowledge-false, or neither. Code is available at https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim is available at https://github.com/thestephencasper/common_claim.

Explorer, Établir, Exploiter : Test d'intrusion des modèles de langage à partir de zéro

Explore, Establish, Exploit: Red Teaming Language Models from Scratch

papers.abstract

Support