ChatPaper.aiChatPaper

Jailbreaking als ein Problem der Belohnungsfalschspezifikation

Jailbreaking as a Reward Misspecification Problem

June 20, 2024
Autoren: Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong
cs.AI

Zusammenfassung

Die weit verbreitete Verwendung großer Sprachmodelle (LLMs) hat Bedenken hinsichtlich ihrer Sicherheit und Zuverlässigkeit aufgeworfen, insbesondere in Bezug auf ihre Anfälligkeit für adversarielle Angriffe. In diesem Paper schlagen wir eine neue Perspektive vor, die diese Anfälligkeit auf eine Fehlausrichtung der Belohnung während des Ausrichtungsprozesses zurückführt. Wir führen eine Metrik ReGap ein, um das Ausmaß der Fehlausrichtung der Belohnung zu quantifizieren, und zeigen deren Wirksamkeit und Robustheit bei der Erkennung schädlicher Backdoor-Prompts auf. Aufbauend auf diesen Erkenntnissen präsentieren wir ReMiss, ein System für automatisiertes Red Teaming, das adversarielle Prompts gegen verschiedene zielgerichtete, ausgerichtete LLMs generiert. ReMiss erzielt Spitzenwerte bei den Angriffserfolgsraten auf dem AdvBench-Benchmark und bewahrt dabei die menschliche Lesbarkeit der generierten Prompts. Eine detaillierte Analyse hebt die einzigartigen Vorteile der vorgeschlagenen Zielsetzung der Fehlausrichtung der Belohnung im Vergleich zu früheren Methoden hervor.
English
The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts against various target aligned LLMs. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark while preserving the human readability of the generated prompts. Detailed analysis highlights the unique advantages brought by the proposed reward misspecification objective compared to previous methods.

Summary

AI-Generated Summary

PDF132November 29, 2024