Haben LLMs politische Korrektheit? Analyse ethischer Vorurteile und Jailbreak-Schwachstellen in KI-Systemen.
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems
October 17, 2024
Autoren: Isack Lee, Haebin Seong
cs.AI
Zusammenfassung
Obwohl große Sprachmodelle (LLMs) beeindruckende Fähigkeiten in verschiedenen Aufgaben zeigen, bergen sie potenzielle Sicherheitsrisiken, wie z.B. 'Jailbreaks', bei denen bösartige Eingaben LLMs dazu bringen können, schädliche Inhalte zu generieren. Um diese Probleme anzugehen, haben viele LLM-Entwickler verschiedene Sicherheitsmaßnahmen implementiert, um diese Modelle auszurichten. Diese Ausrichtung beinhaltet mehrere Techniken, einschließlich Datenfilterung während des Vor-Trainings, überwachtes Feintuning, Verstärkungslernen aus menschlichem Feedback und Red-Teaming-Übungen. Diese Methoden führen oft absichtliche und beabsichtigte Voreingenommenheiten ähnlich der politischen Korrektheit (PC) ein, um das ethische Verhalten von LLMs sicherzustellen. In diesem Artikel gehen wir auf die absichtlichen Voreingenommenheiten ein, die in LLMs für Sicherheitszwecke eingefügt werden, und untersuchen Methoden, um diese Sicherheitsausrichtungstechniken zu umgehen. Insbesondere führen diese absichtlichen Voreingenommenheiten zu einer Jailbreak-Erfolgsquote in GPT-4o-Modellen, die um 20% zwischen nicht-binären und cisgeschlechtlichen Schlüsselwörtern und um 16% zwischen weißen und schwarzen Schlüsselwörtern variiert, selbst wenn die anderen Teile der Eingabe identisch sind. Wir führen das Konzept des PCJailbreak ein, das die inhärenten Risiken hervorhebt, die durch diese sicherheitsbedingten Voreingenommenheiten entstehen. Darüber hinaus schlagen wir eine effiziente Verteidigungsmethode, PCDefense, vor, die Jailbreak-Versuche verhindert, indem Verteidigungsanweisungen vor der Generierung eingefügt werden. PCDefense stellt eine attraktive Alternative zu Schutzmodellen wie Llama-Guard dar, die zusätzliche Inferenzkosten nach der Textgenerierung erfordern. Unsere Ergebnisse betonen die dringende Notwendigkeit, dass LLM-Entwickler einen verantwortungsbewussteren Ansatz bei der Gestaltung und Implementierung von Sicherheitsmaßnahmen verfolgen.
English
Although large language models (LLMs) demonstrate impressive proficiency in
various tasks, they present potential safety risks, such as `jailbreaks', where
malicious inputs can coerce LLMs into generating harmful content. To address
these issues, many LLM developers have implemented various safety measures to
align these models. This alignment involves several techniques, including data
filtering during pre-training, supervised fine-tuning, reinforcement learning
from human feedback, and red-teaming exercises. These methods often introduce
deliberate and intentional biases similar to Political Correctness (PC) to
ensure the ethical behavior of LLMs. In this paper, we delve into the
intentional biases injected into LLMs for safety purposes and examine methods
to circumvent these safety alignment techniques. Notably, these intentional
biases result in a jailbreaking success rate in GPT-4o models that differs by
20% between non-binary and cisgender keywords and by 16% between white and
black keywords, even when the other parts of the prompts are identical. We
introduce the concept of PCJailbreak, highlighting the inherent risks posed by
these safety-induced biases. Additionally, we propose an efficient defense
method PCDefense, which prevents jailbreak attempts by injecting defense
prompts prior to generation. PCDefense stands as an appealing alternative to
Guard Models, such as Llama-Guard, that require additional inference cost after
text generation. Our findings emphasize the urgent need for LLM developers to
adopt a more responsible approach when designing and implementing safety
measures.Summary
AI-Generated Summary