ChatPaper.aiChatPaper

Le jailbreaking en tant que problème de spécification erronée des récompenses

Jailbreaking as a Reward Misspecification Problem

June 20, 2024
Auteurs: Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong
cs.AI

Résumé

L'adoption généralisée des grands modèles de langage (LLM) a suscité des inquiétudes concernant leur sécurité et leur fiabilité, en particulier en ce qui concerne leur vulnérabilité aux attaques adverses. Dans cet article, nous proposons une perspective novatrice qui attribue cette vulnérabilité à une mauvaise spécification de la récompense lors du processus d'alignement. Nous introduisons une métrique, ReGap, pour quantifier l'étendue de cette mauvaise spécification de la récompense et démontrons son efficacité et sa robustesse dans la détection des invites malveillantes (backdoor prompts). Sur la base de ces insights, nous présentons ReMiss, un système de red teaming automatisé qui génère des invites adverses contre divers LLM alignés ciblés. ReMiss atteint des taux de réussite d'attaque de pointe sur le benchmark AdvBench tout en préservant la lisibilité humaine des invites générées. Une analyse détaillée met en lumière les avantages uniques apportés par l'objectif de mauvaise spécification de la récompense proposé par rapport aux méthodes précédentes.
English
The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts against various target aligned LLMs. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark while preserving the human readability of the generated prompts. Detailed analysis highlights the unique advantages brought by the proposed reward misspecification objective compared to previous methods.

Summary

AI-Generated Summary

PDF132November 29, 2024