Uma Falsa Sensação de Segurança: Vazamento de Informações Inseguras em IA 'Segura' - Respostas

Resumo

Modelos de Linguagem de Grande Escala (LLMs) são vulneráveis a jailbreaks — métodos para obter saídas prejudiciais ou geralmente proibidas. Medidas de segurança são desenvolvidas e avaliadas quanto à sua eficácia na defesa contra ataques de jailbreak, indicando a crença de que segurança é equivalente a robustez. Afirmamos que os atuais mecanismos de defesa, como filtros de saída e ajuste fino de alinhamento, são, e permanecerão, fundamentalmente insuficientes para garantir a segurança do modelo. Essas defesas falham em lidar com os riscos decorrentes de consultas com intenções duplas e da capacidade de compor saídas inofensivas para alcançar objetivos prejudiciais. Para abordar essa lacuna crítica, introduzimos um modelo de ameaça informacional chamado adversários inferenciais, que exploram vazamentos de informações proibidas das saídas do modelo para alcançar objetivos maliciosos. Distinguimos esses adversários dos adversários de segurança comumente estudados, que buscam apenas forçar modelos vítimas a gerar saídas proibidas específicas. Demonstramos a viabilidade de automatizar adversários inferenciais por meio de decomposição de perguntas e agregação de respostas. Para fornecer garantias de segurança, definimos um critério de censura de informações para mecanismos de censura, limitando o vazamento de informações proibidas. Propomos um mecanismo de defesa que garante esse limite e revelamos um trade-off intrínseco entre segurança e utilidade. Nosso trabalho fornece a primeira compreensão teoricamente fundamentada dos requisitos para o lançamento de LLMs seguros e os custos de utilidade envolvidos.

English

Large Language Models (LLMs) are vulnerable to jailbreaksx2013methods to elicit harmful or generally impermissible outputs. Safety measures are developed and assessed on their effectiveness at defending against jailbreak attacks, indicating a belief that safety is equivalent to robustness. We assert that current defense mechanisms, such as output filters and alignment fine-tuning, are, and will remain, fundamentally insufficient for ensuring model safety. These defenses fail to address risks arising from dual-intent queries and the ability to composite innocuous outputs to achieve harmful goals. To address this critical gap, we introduce an information-theoretic threat model called inferential adversaries who exploit impermissible information leakage from model outputs to achieve malicious goals. We distinguish these from commonly studied security adversaries who only seek to force victim models to generate specific impermissible outputs. We demonstrate the feasibility of automating inferential adversaries through question decomposition and response aggregation. To provide safety guarantees, we define an information censorship criterion for censorship mechanisms, bounding the leakage of impermissible information. We propose a defense mechanism which ensures this bound and reveal an intrinsic safety-utility trade-off. Our work provides the first theoretically grounded understanding of the requirements for releasing safe LLMs and the utility costs involved.

Uma Falsa Sensação de Segurança: Vazamento de Informações Inseguras em IA 'Segura' - Respostas

A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses

Resumo

Support