Un faux sentiment de sécurité : Fuites d'informations non sécurisées dans les réponses d'IA "sûres"

papers.abstract

Les modèles de langage de grande taille (LLMs) sont vulnérables aux jailbreaks – des méthodes visant à provoquer des réponses nuisibles ou généralement interdites. Les mesures de sécurité sont développées et évaluées en fonction de leur efficacité à se défendre contre les attaques de jailbreak, ce qui suggère une croyance selon laquelle la sécurité équivaut à la robustesse. Nous affirmons que les mécanismes de défense actuels, tels que les filtres de sortie et le réglage fin d'alignement, sont et resteront fondamentalement insuffisants pour garantir la sécurité des modèles. Ces défenses ne parviennent pas à traiter les risques découlant des requêtes à double intention et de la capacité à composer des sorties anodines pour atteindre des objectifs nuisibles. Pour combler cette lacune critique, nous introduisons un modèle de menace informationnelle appelé adversaires inférentiels, qui exploitent les fuites d'informations interdites dans les sorties des modèles pour atteindre des objectifs malveillants. Nous les distinguons des adversaires de sécurité couramment étudiés, qui cherchent uniquement à forcer les modèles victimes à générer des sorties spécifiques interdites. Nous démontrons la faisabilité d'automatiser les adversaires inférentiels par la décomposition des questions et l'agrégation des réponses. Pour garantir la sécurité, nous définissons un critère de censure informationnelle pour les mécanismes de censure, limitant la fuite d'informations interdites. Nous proposons un mécanisme de défense qui assure cette limite et révélons un compromis intrinsèque entre sécurité et utilité. Notre travail fournit la première compréhension théoriquement fondée des exigences pour la publication de LLMs sûrs et des coûts d'utilité impliqués.

English

Large Language Models (LLMs) are vulnerable to jailbreaksx2013methods to elicit harmful or generally impermissible outputs. Safety measures are developed and assessed on their effectiveness at defending against jailbreak attacks, indicating a belief that safety is equivalent to robustness. We assert that current defense mechanisms, such as output filters and alignment fine-tuning, are, and will remain, fundamentally insufficient for ensuring model safety. These defenses fail to address risks arising from dual-intent queries and the ability to composite innocuous outputs to achieve harmful goals. To address this critical gap, we introduce an information-theoretic threat model called inferential adversaries who exploit impermissible information leakage from model outputs to achieve malicious goals. We distinguish these from commonly studied security adversaries who only seek to force victim models to generate specific impermissible outputs. We demonstrate the feasibility of automating inferential adversaries through question decomposition and response aggregation. To provide safety guarantees, we define an information censorship criterion for censorship mechanisms, bounding the leakage of impermissible information. We propose a defense mechanism which ensures this bound and reveal an intrinsic safety-utility trade-off. Our work provides the first theoretically grounded understanding of the requirements for releasing safe LLMs and the utility costs involved.

Un faux sentiment de sécurité : Fuites d'informations non sécurisées dans les réponses d'IA "sûres"

A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses

papers.abstract

Support