Revelando Vulnerabilidades de Segurança em Modelos de Linguagem de Grande Escala
Unveiling Safety Vulnerabilities of Large Language Models
November 7, 2023
Autores: George Kour, Marcel Zalmanovici, Naama Zwerdling, Esther Goldbraich, Ora Nova Fandina, Ateret Anaby-Tavor, Orna Raz, Eitan Farchi
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala se tornam mais prevalentes, suas possíveis respostas prejudiciais ou inadequadas são motivo de preocupação. Este artigo apresenta um conjunto de dados único contendo exemplos adversários na forma de perguntas, que chamamos de AttaQ, projetado para provocar tais respostas prejudiciais ou inadequadas. Avaliamos a eficácia do nosso conjunto de dados analisando as vulnerabilidades de vários modelos quando submetidos a ele. Além disso, introduzimos uma nova abordagem automática para identificar e nomear regiões semânticas vulneráveis - áreas semânticas de entrada para as quais o modelo provavelmente produzirá saídas prejudiciais. Isso é alcançado por meio da aplicação de técnicas de agrupamento especializadas que consideram tanto a similaridade semântica dos ataques de entrada quanto a nocividade das respostas do modelo. A identificação automática de regiões semânticas vulneráveis aprimora a avaliação das fraquezas do modelo, facilitando melhorias direcionadas em seus mecanismos de segurança e confiabilidade geral.
English
As large language models become more prevalent, their possible harmful or
inappropriate responses are a cause for concern. This paper introduces a unique
dataset containing adversarial examples in the form of questions, which we call
AttaQ, designed to provoke such harmful or inappropriate responses. We assess
the efficacy of our dataset by analyzing the vulnerabilities of various models
when subjected to it. Additionally, we introduce a novel automatic approach for
identifying and naming vulnerable semantic regions - input semantic areas for
which the model is likely to produce harmful outputs. This is achieved through
the application of specialized clustering techniques that consider both the
semantic similarity of the input attacks and the harmfulness of the model's
responses. Automatically identifying vulnerable semantic regions enhances the
evaluation of model weaknesses, facilitating targeted improvements to its
safety mechanisms and overall reliability.