Имеют ли LLM-модели политическую корректность? Анализ этических предвзятостей и уязвимостей в системах искусственного интеллекта.
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems
October 17, 2024
Авторы: Isack Lee, Haebin Seong
cs.AI
Аннотация
Хотя крупные языковые модели (LLM) демонстрируют впечатляющую профессиональную компетентность в различных задачах, они представляют потенциальные риски безопасности, такие как "побег из тюрьмы", когда злонамеренные входные данные могут заставить LLM генерировать вредный контент. Для решения этих проблем многие разработчики LLM внедрили различные меры безопасности для выравнивания этих моделей. Это выравнивание включает в себя несколько техник, включая фильтрацию данных во время предварительного обучения, надзорное дообучение, обучение с подкреплением на основе обратной связи от людей и упражнения по проверке на проникновение. Эти методы часто вводят намеренные и целенаправленные предвзятости, аналогичные политической корректности (PC), чтобы гарантировать этическое поведение LLM. В данной статье мы углубляемся в намеренные предвзятости, внедренные в LLM для целей безопасности, и рассматриваем методы обхода этих техник выравнивания безопасности. Особенно эти намеренные предвзятости приводят к успешной атаке на безопасность в моделях GPT-4o, отличие составляет 20% между не-бинарными и кисгендерными ключевыми словами и 16% между белыми и черными ключевыми словами, даже когда другие части запросов идентичны. Мы представляем концепцию PCJailbreak, выделяя встроенные риски, вызванные этими предвзятостями, обусловленными безопасностью. Кроме того, мы предлагаем эффективный метод защиты PCDefense, который предотвращает попытки побега из тюрьмы путем внедрения оборонительных запросов перед генерацией. PCDefense является привлекательной альтернативой для моделей-стражей, таких как Llama-Guard, которые требуют дополнительных затрат на вывод после генерации текста. Наши результаты подчеркивают настоятельную необходимость для разработчиков LLM принять более ответственный подход при разработке и внедрении мер безопасности.
English
Although large language models (LLMs) demonstrate impressive proficiency in
various tasks, they present potential safety risks, such as `jailbreaks', where
malicious inputs can coerce LLMs into generating harmful content. To address
these issues, many LLM developers have implemented various safety measures to
align these models. This alignment involves several techniques, including data
filtering during pre-training, supervised fine-tuning, reinforcement learning
from human feedback, and red-teaming exercises. These methods often introduce
deliberate and intentional biases similar to Political Correctness (PC) to
ensure the ethical behavior of LLMs. In this paper, we delve into the
intentional biases injected into LLMs for safety purposes and examine methods
to circumvent these safety alignment techniques. Notably, these intentional
biases result in a jailbreaking success rate in GPT-4o models that differs by
20% between non-binary and cisgender keywords and by 16% between white and
black keywords, even when the other parts of the prompts are identical. We
introduce the concept of PCJailbreak, highlighting the inherent risks posed by
these safety-induced biases. Additionally, we propose an efficient defense
method PCDefense, which prevents jailbreak attempts by injecting defense
prompts prior to generation. PCDefense stands as an appealing alternative to
Guard Models, such as Llama-Guard, that require additional inference cost after
text generation. Our findings emphasize the urgent need for LLM developers to
adopt a more responsible approach when designing and implementing safety
measures.Summary
AI-Generated Summary