ChatPaper.aiChatPaper

Jailbreaking als een Probleem van Beloningsspecificatie

Jailbreaking as a Reward Misspecification Problem

June 20, 2024
Auteurs: Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong
cs.AI

Samenvatting

De brede adoptie van grote taalmodellen (LLMs) heeft zorgen gewekt over hun veiligheid en betrouwbaarheid, met name wat betreft hun kwetsbaarheid voor adversariële aanvallen. In dit artikel presenteren we een nieuw perspectief dat deze kwetsbaarheid toeschrijft aan beloningsmisspecificatie tijdens het alignatieproces. We introduceren een metriek genaamd ReGap om de omvang van beloningsmisspecificatie te kwantificeren en tonen de effectiviteit en robuustheid ervan aan bij het detecteren van schadelijke backdoor-prompten. Op basis van deze inzichten presenteren we ReMiss, een systeem voor geautomatiseerde red teaming dat adversariële prompten genereert tegen verschillende doel-LLMs. ReMiss behaalt state-of-the-art aanvalssuccespercentages op de AdvBench-benchmark, terwijl de menselijke leesbaarheid van de gegenereerde prompten behouden blijft. Gedetailleerde analyse benadrukt de unieke voordelen van het voorgestelde beloningsmisspecificatie-objectief in vergelijking met eerdere methoden.
English
The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts against various target aligned LLMs. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark while preserving the human readability of the generated prompts. Detailed analysis highlights the unique advantages brought by the proposed reward misspecification objective compared to previous methods.
PDF132November 29, 2024