Un falso senso di sicurezza: perdita di informazioni rischiose nelle risposte "sicure" dell'IA
A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses
July 2, 2024
Autori: David Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan, Nicolas Papernot
cs.AI
Abstract
I Large Language Model (LLM) sono vulnerabili ai jailbreak, metodi per ottenere output dannosi o generalmente non consentiti. Le misure di sicurezza vengono sviluppate e valutate in base alla loro efficacia nel difendere dagli attacchi di jailbreak, indicando una convinzione che la sicurezza equivalga alla robustezza. Affermiamo che i meccanismi di difesa attuali, come i filtri sugli output e il fine-tuning di allineamento, sono e rimarranno fondamentalmente insufficienti per garantire la sicurezza del modello. Queste difese non affrontano i rischi derivanti da query a doppia intenzione e dalla capacità di comporre output innocui per raggiungere obiettivi dannosi. Per colmare questa lacuna critica, introduciamo un modello di minaccia basato sulla teoria dell'informazione chiamato avversari inferenziali, che sfruttano la fuoriuscita di informazioni non consentite dagli output del modello per raggiungere obiettivi malevoli. Distinguiamo questi dagli avversari di sicurezza comunemente studiati, che cercano solo di costringere i modelli vittima a generare specifici output non consentiti. Dimostriamo la fattibilità di automatizzare gli avversari inferenziali attraverso la scomposizione delle domande e l'aggregazione delle risposte. Per fornire garanzie di sicurezza, definiamo un criterio di censura delle informazioni per i meccanismi di censura, limitando la fuoriuscita di informazioni non consentite. Proponiamo un meccanismo di difesa che assicura questo limite e riveliamo un compromesso intrinseco tra sicurezza e utilità. Il nostro lavoro fornisce la prima comprensione teoricamente fondata dei requisiti per il rilascio di LLM sicuri e dei costi di utilità coinvolti.
English
Large Language Models (LLMs) are vulnerable to
jailbreaksx2013methods to elicit harmful or generally impermissible
outputs. Safety measures are developed and assessed on their effectiveness at
defending against jailbreak attacks, indicating a belief that safety is
equivalent to robustness. We assert that current defense mechanisms, such as
output filters and alignment fine-tuning, are, and will remain, fundamentally
insufficient for ensuring model safety. These defenses fail to address risks
arising from dual-intent queries and the ability to composite innocuous outputs
to achieve harmful goals. To address this critical gap, we introduce an
information-theoretic threat model called inferential adversaries who exploit
impermissible information leakage from model outputs to achieve malicious
goals. We distinguish these from commonly studied security adversaries who only
seek to force victim models to generate specific impermissible outputs. We
demonstrate the feasibility of automating inferential adversaries through
question decomposition and response aggregation. To provide safety guarantees,
we define an information censorship criterion for censorship mechanisms,
bounding the leakage of impermissible information. We propose a defense
mechanism which ensures this bound and reveal an intrinsic safety-utility
trade-off. Our work provides the first theoretically grounded understanding of
the requirements for releasing safe LLMs and the utility costs involved.