Uma Falsa Sensação de Segurança: Vazamento de Informações Inseguras em IA 'Segura' - Respostas
A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses
July 2, 2024
Autores: David Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan, Nicolas Papernot
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) são vulneráveis a jailbreaks — métodos para obter saídas prejudiciais ou geralmente proibidas. Medidas de segurança são desenvolvidas e avaliadas quanto à sua eficácia na defesa contra ataques de jailbreak, indicando a crença de que segurança é equivalente a robustez. Afirmamos que os atuais mecanismos de defesa, como filtros de saída e ajuste fino de alinhamento, são, e permanecerão, fundamentalmente insuficientes para garantir a segurança do modelo. Essas defesas falham em lidar com os riscos decorrentes de consultas com intenções duplas e da capacidade de compor saídas inofensivas para alcançar objetivos prejudiciais. Para abordar essa lacuna crítica, introduzimos um modelo de ameaça informacional chamado adversários inferenciais, que exploram vazamentos de informações proibidas das saídas do modelo para alcançar objetivos maliciosos. Distinguimos esses adversários dos adversários de segurança comumente estudados, que buscam apenas forçar modelos vítimas a gerar saídas proibidas específicas. Demonstramos a viabilidade de automatizar adversários inferenciais por meio de decomposição de perguntas e agregação de respostas. Para fornecer garantias de segurança, definimos um critério de censura de informações para mecanismos de censura, limitando o vazamento de informações proibidas. Propomos um mecanismo de defesa que garante esse limite e revelamos um trade-off intrínseco entre segurança e utilidade. Nosso trabalho fornece a primeira compreensão teoricamente fundamentada dos requisitos para o lançamento de LLMs seguros e os custos de utilidade envolvidos.
English
Large Language Models (LLMs) are vulnerable to
jailbreaksx2013methods to elicit harmful or generally impermissible
outputs. Safety measures are developed and assessed on their effectiveness at
defending against jailbreak attacks, indicating a belief that safety is
equivalent to robustness. We assert that current defense mechanisms, such as
output filters and alignment fine-tuning, are, and will remain, fundamentally
insufficient for ensuring model safety. These defenses fail to address risks
arising from dual-intent queries and the ability to composite innocuous outputs
to achieve harmful goals. To address this critical gap, we introduce an
information-theoretic threat model called inferential adversaries who exploit
impermissible information leakage from model outputs to achieve malicious
goals. We distinguish these from commonly studied security adversaries who only
seek to force victim models to generate specific impermissible outputs. We
demonstrate the feasibility of automating inferential adversaries through
question decomposition and response aggregation. To provide safety guarantees,
we define an information censorship criterion for censorship mechanisms,
bounding the leakage of impermissible information. We propose a defense
mechanism which ensures this bound and reveal an intrinsic safety-utility
trade-off. Our work provides the first theoretically grounded understanding of
the requirements for releasing safe LLMs and the utility costs involved.