Il jailbreaking come problema di specificazione errata della ricompensa
Jailbreaking as a Reward Misspecification Problem
June 20, 2024
Autori: Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong
cs.AI
Abstract
L'adozione diffusa dei grandi modelli linguistici (LLM) ha sollevato preoccupazioni riguardo alla loro sicurezza e affidabilità, in particolare per quanto concerne la loro vulnerabilità agli attacchi avversari. In questo articolo, proponiamo una nuova prospettiva che attribuisce tale vulnerabilità a una specificazione errata della ricompensa durante il processo di allineamento. Introduciamo una metrica, ReGap, per quantificare l'entità di questa specificazione errata e ne dimostriamo l'efficacia e la robustezza nel rilevare prompt dannosi con backdoor. Sulla base di queste intuizioni, presentiamo ReMiss, un sistema per il red teaming automatizzato che genera prompt avversari contro vari LLM allineati a obiettivi. ReMiss raggiunge tassi di successo d'attacco all'avanguardia sul benchmark AdvBench, preservando al contempo la leggibilità umana dei prompt generati. Un'analisi dettagliata evidenzia i vantaggi unici offerti dall'obiettivo di specificazione errata della ricompensa proposto rispetto ai metodi precedenti.
English
The widespread adoption of large language models (LLMs) has raised concerns
about their safety and reliability, particularly regarding their vulnerability
to adversarial attacks. In this paper, we propose a novel perspective that
attributes this vulnerability to reward misspecification during the alignment
process. We introduce a metric ReGap to quantify the extent of reward
misspecification and demonstrate its effectiveness and robustness in detecting
harmful backdoor prompts. Building upon these insights, we present ReMiss, a
system for automated red teaming that generates adversarial prompts against
various target aligned LLMs. ReMiss achieves state-of-the-art attack success
rates on the AdvBench benchmark while preserving the human readability of the
generated prompts. Detailed analysis highlights the unique advantages brought
by the proposed reward misspecification objective compared to previous methods.