Revelando Vulnerabilidades de Seguridad en Modelos de Lenguaje a Gran Escala
Unveiling Safety Vulnerabilities of Large Language Models
November 7, 2023
Autores: George Kour, Marcel Zalmanovici, Naama Zwerdling, Esther Goldbraich, Ora Nova Fandina, Ateret Anaby-Tavor, Orna Raz, Eitan Farchi
cs.AI
Resumen
A medida que los modelos de lenguaje grandes se vuelven más prevalentes, sus posibles respuestas dañinas o inapropiadas son motivo de preocupación. Este artículo presenta un conjunto de datos único que contiene ejemplos adversarios en forma de preguntas, al que llamamos AttaQ, diseñado para provocar dichas respuestas dañinas o inapropiadas. Evaluamos la eficacia de nuestro conjunto de datos analizando las vulnerabilidades de varios modelos cuando se someten a él. Además, introducimos un enfoque automático novedoso para identificar y nombrar regiones semánticas vulnerables: áreas semánticas de entrada para las cuales es probable que el modelo produzca resultados dañinos. Esto se logra mediante la aplicación de técnicas de agrupamiento especializadas que consideran tanto la similitud semántica de los ataques de entrada como la nocividad de las respuestas del modelo. La identificación automática de regiones semánticas vulnerables mejora la evaluación de las debilidades del modelo, facilitando mejoras específicas en sus mecanismos de seguridad y su confiabilidad general.
English
As large language models become more prevalent, their possible harmful or
inappropriate responses are a cause for concern. This paper introduces a unique
dataset containing adversarial examples in the form of questions, which we call
AttaQ, designed to provoke such harmful or inappropriate responses. We assess
the efficacy of our dataset by analyzing the vulnerabilities of various models
when subjected to it. Additionally, we introduce a novel automatic approach for
identifying and naming vulnerable semantic regions - input semantic areas for
which the model is likely to produce harmful outputs. This is achieved through
the application of specialized clustering techniques that consider both the
semantic similarity of the input attacks and the harmfulness of the model's
responses. Automatically identifying vulnerable semantic regions enhances the
evaluation of model weaknesses, facilitating targeted improvements to its
safety mechanisms and overall reliability.