Una Falsa Sensación de Seguridad: Fugas de Información Inseguras en la IA 'Segura' - Respuestas
A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses
July 2, 2024
Autores: David Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan, Nicolas Papernot
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Tamaño (LLMs) son vulnerables a jailbreaks, métodos para provocar salidas dañinas o generalmente inadmisibles. Se desarrollan medidas de seguridad y se evalúan por su efectividad en defenderse contra ataques de jailbreak, lo que indica la creencia de que la seguridad es equivalente a la robustez. Sostenemos que los mecanismos de defensa actuales, como los filtros de salida y el ajuste fino de alineación, son, y seguirán siendo, fundamentalmente insuficientes para garantizar la seguridad del modelo. Estas defensas no abordan los riesgos derivados de consultas con intenciones duales y la capacidad de componer salidas inofensivas para lograr objetivos dañinos. Para abordar esta brecha crítica, presentamos un modelo de amenazas de información llamado adversarios inferenciales que explotan la filtración de información inadmisible de las salidas del modelo para lograr objetivos maliciosos. Los distinguimos de los adversarios de seguridad comúnmente estudiados que solo buscan obligar a los modelos víctimas a generar salidas específicamente inadmisibles. Demostramos la viabilidad de automatizar adversarios inferenciales a través de la descomposición de preguntas y la agregación de respuestas. Para proporcionar garantías de seguridad, definimos un criterio de censura de información para los mecanismos de censura, limitando la filtración de información inadmisible. Proponemos un mecanismo de defensa que garantiza este límite y revelamos un compromiso intrínseco entre seguridad y utilidad. Nuestro trabajo proporciona la primera comprensión teóricamente fundamentada de los requisitos para liberar LLMs seguros y los costos de utilidad involucrados.
English
Large Language Models (LLMs) are vulnerable to
jailbreaksx2013methods to elicit harmful or generally impermissible
outputs. Safety measures are developed and assessed on their effectiveness at
defending against jailbreak attacks, indicating a belief that safety is
equivalent to robustness. We assert that current defense mechanisms, such as
output filters and alignment fine-tuning, are, and will remain, fundamentally
insufficient for ensuring model safety. These defenses fail to address risks
arising from dual-intent queries and the ability to composite innocuous outputs
to achieve harmful goals. To address this critical gap, we introduce an
information-theoretic threat model called inferential adversaries who exploit
impermissible information leakage from model outputs to achieve malicious
goals. We distinguish these from commonly studied security adversaries who only
seek to force victim models to generate specific impermissible outputs. We
demonstrate the feasibility of automating inferential adversaries through
question decomposition and response aggregation. To provide safety guarantees,
we define an information censorship criterion for censorship mechanisms,
bounding the leakage of impermissible information. We propose a defense
mechanism which ensures this bound and reveal an intrinsic safety-utility
trade-off. Our work provides the first theoretically grounded understanding of
the requirements for releasing safe LLMs and the utility costs involved.Summary
AI-Generated Summary