Un faux sentiment de sécurité : Fuites d'informations non sécurisées dans les réponses d'IA "sûres"
A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses
July 2, 2024
Auteurs: David Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan, Nicolas Papernot
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) sont vulnérables aux jailbreaks – des méthodes visant à provoquer des réponses nuisibles ou généralement interdites. Les mesures de sécurité sont développées et évaluées en fonction de leur efficacité à se défendre contre les attaques de jailbreak, ce qui suggère une croyance selon laquelle la sécurité équivaut à la robustesse. Nous affirmons que les mécanismes de défense actuels, tels que les filtres de sortie et le réglage fin d'alignement, sont et resteront fondamentalement insuffisants pour garantir la sécurité des modèles. Ces défenses ne parviennent pas à traiter les risques découlant des requêtes à double intention et de la capacité à composer des sorties anodines pour atteindre des objectifs nuisibles. Pour combler cette lacune critique, nous introduisons un modèle de menace informationnelle appelé adversaires inférentiels, qui exploitent les fuites d'informations interdites dans les sorties des modèles pour atteindre des objectifs malveillants. Nous les distinguons des adversaires de sécurité couramment étudiés, qui cherchent uniquement à forcer les modèles victimes à générer des sorties spécifiques interdites. Nous démontrons la faisabilité d'automatiser les adversaires inférentiels par la décomposition des questions et l'agrégation des réponses. Pour garantir la sécurité, nous définissons un critère de censure informationnelle pour les mécanismes de censure, limitant la fuite d'informations interdites. Nous proposons un mécanisme de défense qui assure cette limite et révélons un compromis intrinsèque entre sécurité et utilité. Notre travail fournit la première compréhension théoriquement fondée des exigences pour la publication de LLMs sûrs et des coûts d'utilité impliqués.
English
Large Language Models (LLMs) are vulnerable to
jailbreaksx2013methods to elicit harmful or generally impermissible
outputs. Safety measures are developed and assessed on their effectiveness at
defending against jailbreak attacks, indicating a belief that safety is
equivalent to robustness. We assert that current defense mechanisms, such as
output filters and alignment fine-tuning, are, and will remain, fundamentally
insufficient for ensuring model safety. These defenses fail to address risks
arising from dual-intent queries and the ability to composite innocuous outputs
to achieve harmful goals. To address this critical gap, we introduce an
information-theoretic threat model called inferential adversaries who exploit
impermissible information leakage from model outputs to achieve malicious
goals. We distinguish these from commonly studied security adversaries who only
seek to force victim models to generate specific impermissible outputs. We
demonstrate the feasibility of automating inferential adversaries through
question decomposition and response aggregation. To provide safety guarantees,
we define an information censorship criterion for censorship mechanisms,
bounding the leakage of impermissible information. We propose a defense
mechanism which ensures this bound and reveal an intrinsic safety-utility
trade-off. Our work provides the first theoretically grounded understanding of
the requirements for releasing safe LLMs and the utility costs involved.Summary
AI-Generated Summary