Explorar, Estabelecer, Explorar: Testando Modelos de Linguagem do Zero com Equipes Vermelhas
Explore, Establish, Exploit: Red Teaming Language Models from Scratch
June 15, 2023
Autores: Stephen Casper, Jason Lin, Joe Kwon, Gatlen Culp, Dylan Hadfield-Menell
cs.AI
Resumo
A implantação de modelos de linguagem de grande escala (LLMs) pode apresentar riscos devido a saídas prejudiciais, como discursos tóxicos ou desonestos. Trabalhos anteriores introduziram ferramentas que provocam saídas prejudiciais para identificar e mitigar esses riscos. Embora isso seja um passo valioso para garantir a segurança dos modelos de linguagem, essas abordagens geralmente dependem de um classificador pré-existente para saídas indesejadas. Isso limita sua aplicação a situações em que o tipo de comportamento prejudicial é conhecido com precisão antecipadamente. No entanto, isso ignora um desafio central do red teaming: desenvolver uma compreensão contextual dos comportamentos que um modelo pode exibir. Além disso, quando tal classificador já existe, o red teaming tem valor marginal limitado, pois o classificador poderia simplesmente ser usado para filtrar dados de treinamento ou saídas do modelo. Neste trabalho, consideramos o red teaming sob a suposição de que o adversário está trabalhando a partir de uma especificação abstrata e de alto nível de comportamento indesejado. Espera-se que a equipe de red team refine/estenda essa especificação e identifique métodos para provocar esse comportamento no modelo. Nosso framework de red teaming consiste em três etapas: 1) Explorar o comportamento do modelo no contexto desejado; 2) Estabelecer uma medida de comportamento indesejado (por exemplo, um classificador treinado para refletir avaliações humanas); e 3) Explorar as falhas do modelo usando essa medida e uma metodologia estabelecida de red teaming. Aplicamos essa abordagem para realizar red teaming nos modelos GPT-2 e GPT-3, a fim de descobrir sistematicamente classes de prompts que provocam declarações tóxicas e desonestas. Ao fazer isso, também construímos e disponibilizamos o conjunto de dados CommonClaim, que contém 20.000 declarações rotuladas por sujeitos humanos como verdadeiras de conhecimento comum, falsas de conhecimento comum ou nenhuma das duas. O código está disponível em https://github.com/thestephencasper/explore_establish_exploit_llms. O CommonClaim está disponível em https://github.com/thestephencasper/common_claim.
English
Deploying Large language models (LLMs) can pose hazards from harmful outputs
such as toxic or dishonest speech. Prior work has introduced tools that elicit
harmful outputs in order to identify and mitigate these risks. While this is a
valuable step toward securing language models, these approaches typically rely
on a pre-existing classifier for undesired outputs. This limits their
application to situations where the type of harmful behavior is known with
precision beforehand. However, this skips a central challenge of red teaming:
developing a contextual understanding of the behaviors that a model can
exhibit. Furthermore, when such a classifier already exists, red teaming has
limited marginal value because the classifier could simply be used to filter
training data or model outputs. In this work, we consider red teaming under the
assumption that the adversary is working from a high-level, abstract
specification of undesired behavior. The red team is expected to refine/extend
this specification and identify methods to elicit this behavior from the model.
Our red teaming framework consists of three steps: 1) Exploring the model's
behavior in the desired context; 2) Establishing a measurement of undesired
behavior (e.g., a classifier trained to reflect human evaluations); and 3)
Exploiting the model's flaws using this measure and an established red teaming
methodology. We apply this approach to red team GPT-2 and GPT-3 models to
systematically discover classes of prompts that elicit toxic and dishonest
statements. In doing so, we also construct and release the CommonClaim dataset
of 20,000 statements that have been labeled by human subjects as
common-knowledge-true, common-knowledge-false, or neither. Code is available at
https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim
is available at https://github.com/thestephencasper/common_claim.