Explorar, Estabelecer, Explorar: Testando Modelos de Linguagem do Zero com Equipes Vermelhas

Resumo

A implantação de modelos de linguagem de grande escala (LLMs) pode apresentar riscos devido a saídas prejudiciais, como discursos tóxicos ou desonestos. Trabalhos anteriores introduziram ferramentas que provocam saídas prejudiciais para identificar e mitigar esses riscos. Embora isso seja um passo valioso para garantir a segurança dos modelos de linguagem, essas abordagens geralmente dependem de um classificador pré-existente para saídas indesejadas. Isso limita sua aplicação a situações em que o tipo de comportamento prejudicial é conhecido com precisão antecipadamente. No entanto, isso ignora um desafio central do red teaming: desenvolver uma compreensão contextual dos comportamentos que um modelo pode exibir. Além disso, quando tal classificador já existe, o red teaming tem valor marginal limitado, pois o classificador poderia simplesmente ser usado para filtrar dados de treinamento ou saídas do modelo. Neste trabalho, consideramos o red teaming sob a suposição de que o adversário está trabalhando a partir de uma especificação abstrata e de alto nível de comportamento indesejado. Espera-se que a equipe de red team refine/estenda essa especificação e identifique métodos para provocar esse comportamento no modelo. Nosso framework de red teaming consiste em três etapas: 1) Explorar o comportamento do modelo no contexto desejado; 2) Estabelecer uma medida de comportamento indesejado (por exemplo, um classificador treinado para refletir avaliações humanas); e 3) Explorar as falhas do modelo usando essa medida e uma metodologia estabelecida de red teaming. Aplicamos essa abordagem para realizar red teaming nos modelos GPT-2 e GPT-3, a fim de descobrir sistematicamente classes de prompts que provocam declarações tóxicas e desonestas. Ao fazer isso, também construímos e disponibilizamos o conjunto de dados CommonClaim, que contém 20.000 declarações rotuladas por sujeitos humanos como verdadeiras de conhecimento comum, falsas de conhecimento comum ou nenhuma das duas. O código está disponível em https://github.com/thestephencasper/explore_establish_exploit_llms. O CommonClaim está disponível em https://github.com/thestephencasper/common_claim.

English

Deploying Large language models (LLMs) can pose hazards from harmful outputs such as toxic or dishonest speech. Prior work has introduced tools that elicit harmful outputs in order to identify and mitigate these risks. While this is a valuable step toward securing language models, these approaches typically rely on a pre-existing classifier for undesired outputs. This limits their application to situations where the type of harmful behavior is known with precision beforehand. However, this skips a central challenge of red teaming: developing a contextual understanding of the behaviors that a model can exhibit. Furthermore, when such a classifier already exists, red teaming has limited marginal value because the classifier could simply be used to filter training data or model outputs. In this work, we consider red teaming under the assumption that the adversary is working from a high-level, abstract specification of undesired behavior. The red team is expected to refine/extend this specification and identify methods to elicit this behavior from the model. Our red teaming framework consists of three steps: 1) Exploring the model's behavior in the desired context; 2) Establishing a measurement of undesired behavior (e.g., a classifier trained to reflect human evaluations); and 3) Exploiting the model's flaws using this measure and an established red teaming methodology. We apply this approach to red team GPT-2 and GPT-3 models to systematically discover classes of prompts that elicit toxic and dishonest statements. In doing so, we also construct and release the CommonClaim dataset of 20,000 statements that have been labeled by human subjects as common-knowledge-true, common-knowledge-false, or neither. Code is available at https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim is available at https://github.com/thestephencasper/common_claim.

Explorar, Estabelecer, Explorar: Testando Modelos de Linguagem do Zero com Equipes Vermelhas

Explore, Establish, Exploit: Red Teaming Language Models from Scratch

Resumo

Support