Un falso senso di sicurezza: perdita di informazioni rischiose nelle risposte "sicure" dell'IA

Abstract

I Large Language Model (LLM) sono vulnerabili ai jailbreak, metodi per ottenere output dannosi o generalmente non consentiti. Le misure di sicurezza vengono sviluppate e valutate in base alla loro efficacia nel difendere dagli attacchi di jailbreak, indicando una convinzione che la sicurezza equivalga alla robustezza. Affermiamo che i meccanismi di difesa attuali, come i filtri sugli output e il fine-tuning di allineamento, sono e rimarranno fondamentalmente insufficienti per garantire la sicurezza del modello. Queste difese non affrontano i rischi derivanti da query a doppia intenzione e dalla capacità di comporre output innocui per raggiungere obiettivi dannosi. Per colmare questa lacuna critica, introduciamo un modello di minaccia basato sulla teoria dell'informazione chiamato avversari inferenziali, che sfruttano la fuoriuscita di informazioni non consentite dagli output del modello per raggiungere obiettivi malevoli. Distinguiamo questi dagli avversari di sicurezza comunemente studiati, che cercano solo di costringere i modelli vittima a generare specifici output non consentiti. Dimostriamo la fattibilità di automatizzare gli avversari inferenziali attraverso la scomposizione delle domande e l'aggregazione delle risposte. Per fornire garanzie di sicurezza, definiamo un criterio di censura delle informazioni per i meccanismi di censura, limitando la fuoriuscita di informazioni non consentite. Proponiamo un meccanismo di difesa che assicura questo limite e riveliamo un compromesso intrinseco tra sicurezza e utilità. Il nostro lavoro fornisce la prima comprensione teoricamente fondata dei requisiti per il rilascio di LLM sicuri e dei costi di utilità coinvolti.

English

Large Language Models (LLMs) are vulnerable to jailbreaksx2013methods to elicit harmful or generally impermissible outputs. Safety measures are developed and assessed on their effectiveness at defending against jailbreak attacks, indicating a belief that safety is equivalent to robustness. We assert that current defense mechanisms, such as output filters and alignment fine-tuning, are, and will remain, fundamentally insufficient for ensuring model safety. These defenses fail to address risks arising from dual-intent queries and the ability to composite innocuous outputs to achieve harmful goals. To address this critical gap, we introduce an information-theoretic threat model called inferential adversaries who exploit impermissible information leakage from model outputs to achieve malicious goals. We distinguish these from commonly studied security adversaries who only seek to force victim models to generate specific impermissible outputs. We demonstrate the feasibility of automating inferential adversaries through question decomposition and response aggregation. To provide safety guarantees, we define an information censorship criterion for censorship mechanisms, bounding the leakage of impermissible information. We propose a defense mechanism which ensures this bound and reveal an intrinsic safety-utility trade-off. Our work provides the first theoretically grounded understanding of the requirements for releasing safe LLMs and the utility costs involved.

Un falso senso di sicurezza: perdita di informazioni rischiose nelle risposte "sicure" dell'IA

A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses

Abstract

Support