ChatPaper.aiChatPaper

Een Vals Gevoel van Veiligheid: Onveilige Informatielekkage in 'Veilige' AI-reacties

A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses

July 2, 2024
Auteurs: David Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan, Nicolas Papernot
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) zijn kwetsbaar voor jailbreaks–methoden om schadelijke of over het algemeen ontoelaatbare uitvoer te ontlokken. Veiligheidsmaatregelen worden ontwikkeld en beoordeeld op hun effectiviteit in het verdedigen tegen jailbreak-aanvallen, wat suggereert dat veiligheid gelijkstaat aan robuustheid. Wij stellen dat huidige verdedigingsmechanismen, zoals uitvoerfilters en afstemming via fine-tuning, fundamenteel ontoereikend zijn en zullen blijven voor het waarborgen van modelsafety. Deze verdedigingen gaan niet in op risico's die voortkomen uit queries met dubbele intentie en de mogelijkheid om onschuldige uitvoer te combineren om schadelijke doelen te bereiken. Om dit kritieke gat te dichten, introduceren we een informatie-theoretisch dreigingsmodel genaamd inferentiële tegenstanders, die ontoelaatbare informatielekken uit modeluitvoer exploiteren om kwaadaardige doelen te bereiken. We onderscheiden deze van veelvoorkomende beveiligingstegenstanders die alleen proberen slachtoffermodellen te dwingen specifieke ontoelaatbare uitvoer te genereren. We tonen de haalbaarheid aan van het automatiseren van inferentiële tegenstanders door vraagdecompositie en responsaggregatie. Om veiligheidsgaranties te bieden, definiëren we een informatiecensuurcriterium voor censuurmechanismen, dat het lekken van ontoelaatbare informatie begrenst. We stellen een verdedigingsmechanisme voor dat deze grens waarborgt en onthullen een intrinsieke veiligheid-nuttigheid trade-off. Ons werk biedt het eerste theoretisch onderbouwde inzicht in de vereisten voor het uitbrengen van veilige LLMs en de daarbij betrokken nuttigheidskosten.
English
Large Language Models (LLMs) are vulnerable to jailbreaksx2013methods to elicit harmful or generally impermissible outputs. Safety measures are developed and assessed on their effectiveness at defending against jailbreak attacks, indicating a belief that safety is equivalent to robustness. We assert that current defense mechanisms, such as output filters and alignment fine-tuning, are, and will remain, fundamentally insufficient for ensuring model safety. These defenses fail to address risks arising from dual-intent queries and the ability to composite innocuous outputs to achieve harmful goals. To address this critical gap, we introduce an information-theoretic threat model called inferential adversaries who exploit impermissible information leakage from model outputs to achieve malicious goals. We distinguish these from commonly studied security adversaries who only seek to force victim models to generate specific impermissible outputs. We demonstrate the feasibility of automating inferential adversaries through question decomposition and response aggregation. To provide safety guarantees, we define an information censorship criterion for censorship mechanisms, bounding the leakage of impermissible information. We propose a defense mechanism which ensures this bound and reveal an intrinsic safety-utility trade-off. Our work provides the first theoretically grounded understanding of the requirements for releasing safe LLMs and the utility costs involved.
PDF91February 8, 2026