Eine falsche Sicherheit: Unsicheres Informationsleck in "sicherer" KI-Antworten
A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses
July 2, 2024
Autoren: David Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan, Nicolas Papernot
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) sind anfällig für Jailbreaks – Methoden, um schädliche oder allgemein unzulässige Ausgaben zu erzeugen. Sicherheitsmaßnahmen werden entwickelt und auf ihre Wirksamkeit bei der Abwehr von Jailbreak-Angriffen bewertet, was darauf hindeutet, dass Sicherheit mit Robustheit gleichzusetzen ist. Wir behaupten, dass aktuelle Verteidigungsmechanismen wie Ausgabefilter und Feinabstimmung der Ausrichtung grundsätzlich unzureichend sind, um die Sicherheit des Modells zu gewährleisten. Diese Verteidigungen versäumen es, Risiken anzugehen, die aus Dual-Intent-Abfragen und der Fähigkeit resultieren, harmlose Ausgaben zusammenzusetzen, um schädliche Ziele zu erreichen. Um diese kritische Lücke zu schließen, führen wir ein informationstheoretisches Bedrohungsmodell ein, das inferentielle Angreifer bezeichnet, die unzulässige Informationen aus den Modellausgaben ausnutzen, um bösartige Ziele zu erreichen. Wir unterscheiden diese von üblicherweise untersuchten Sicherheitsgegnern, die nur darauf abzielen, Opfermodelle zu zwingen, spezifische unzulässige Ausgaben zu generieren. Wir zeigen die Machbarkeit der Automatisierung inferentieller Angreifer durch Fragezerlegung und Antwortaggregation auf. Um Sicherheitsgarantien zu bieten, definieren wir ein Informationszensurkriterium für Zensurmechanismen, das die Weitergabe unzulässiger Informationen begrenzt. Wir schlagen einen Verteidigungsmechanismus vor, der diese Grenze sicherstellt, und enthüllen einen intrinsischen Sicherheits-Nutzen-Abwägung. Unsere Arbeit bietet das erste theoretisch fundierte Verständnis der Anforderungen für die Veröffentlichung sicherer LLMs und der damit verbundenen Nutzenkosten.
English
Large Language Models (LLMs) are vulnerable to
jailbreaksx2013methods to elicit harmful or generally impermissible
outputs. Safety measures are developed and assessed on their effectiveness at
defending against jailbreak attacks, indicating a belief that safety is
equivalent to robustness. We assert that current defense mechanisms, such as
output filters and alignment fine-tuning, are, and will remain, fundamentally
insufficient for ensuring model safety. These defenses fail to address risks
arising from dual-intent queries and the ability to composite innocuous outputs
to achieve harmful goals. To address this critical gap, we introduce an
information-theoretic threat model called inferential adversaries who exploit
impermissible information leakage from model outputs to achieve malicious
goals. We distinguish these from commonly studied security adversaries who only
seek to force victim models to generate specific impermissible outputs. We
demonstrate the feasibility of automating inferential adversaries through
question decomposition and response aggregation. To provide safety guarantees,
we define an information censorship criterion for censorship mechanisms,
bounding the leakage of impermissible information. We propose a defense
mechanism which ensures this bound and reveal an intrinsic safety-utility
trade-off. Our work provides the first theoretically grounded understanding of
the requirements for releasing safe LLMs and the utility costs involved.Summary
AI-Generated Summary