Il jailbreaking come problema di specificazione errata della ricompensa

Abstract

L'adozione diffusa dei grandi modelli linguistici (LLM) ha sollevato preoccupazioni riguardo alla loro sicurezza e affidabilità, in particolare per quanto concerne la loro vulnerabilità agli attacchi avversari. In questo articolo, proponiamo una nuova prospettiva che attribuisce tale vulnerabilità a una specificazione errata della ricompensa durante il processo di allineamento. Introduciamo una metrica, ReGap, per quantificare l'entità di questa specificazione errata e ne dimostriamo l'efficacia e la robustezza nel rilevare prompt dannosi con backdoor. Sulla base di queste intuizioni, presentiamo ReMiss, un sistema per il red teaming automatizzato che genera prompt avversari contro vari LLM allineati a obiettivi. ReMiss raggiunge tassi di successo d'attacco all'avanguardia sul benchmark AdvBench, preservando al contempo la leggibilità umana dei prompt generati. Un'analisi dettagliata evidenzia i vantaggi unici offerti dall'obiettivo di specificazione errata della ricompensa proposto rispetto ai metodi precedenti.

English

The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts against various target aligned LLMs. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark while preserving the human readability of the generated prompts. Detailed analysis highlights the unique advantages brought by the proposed reward misspecification objective compared to previous methods.

Il jailbreaking come problema di specificazione errata della ricompensa

Jailbreaking as a Reward Misspecification Problem

Abstract

Support