El jailbreaking como un problema de especificación incorrecta de recompensas
Jailbreaking as a Reward Misspecification Problem
June 20, 2024
Autores: Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong
cs.AI
Resumen
La adopción generalizada de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha generado preocupaciones sobre su seguridad y fiabilidad, particularmente en relación con su vulnerabilidad a ataques adversarios. En este artículo, proponemos una perspectiva novedosa que atribuye esta vulnerabilidad a una especificación incorrecta de la recompensa durante el proceso de alineación. Introducimos una métrica llamada ReGap para cuantificar el grado de especificación incorrecta de la recompensa y demostramos su efectividad y robustez en la detección de indicaciones (prompts) maliciosas con puertas traseras. Basándonos en estas ideas, presentamos ReMiss, un sistema de pruebas de penetración automatizado que genera indicaciones adversarias contra diversos LLMs alineados con objetivos específicos. ReMiss logra tasas de éxito en ataques de vanguardia en el benchmark AdvBench, manteniendo al mismo tiempo la legibilidad humana de las indicaciones generadas. Un análisis detallado resalta las ventajas únicas que ofrece el objetivo de especificación incorrecta de la recompensa propuesto en comparación con métodos anteriores.
English
The widespread adoption of large language models (LLMs) has raised concerns
about their safety and reliability, particularly regarding their vulnerability
to adversarial attacks. In this paper, we propose a novel perspective that
attributes this vulnerability to reward misspecification during the alignment
process. We introduce a metric ReGap to quantify the extent of reward
misspecification and demonstrate its effectiveness and robustness in detecting
harmful backdoor prompts. Building upon these insights, we present ReMiss, a
system for automated red teaming that generates adversarial prompts against
various target aligned LLMs. ReMiss achieves state-of-the-art attack success
rates on the AdvBench benchmark while preserving the human readability of the
generated prompts. Detailed analysis highlights the unique advantages brought
by the proposed reward misspecification objective compared to previous methods.Summary
AI-Generated Summary