ChatPaper.aiChatPaper

보완 오류 문제로서의 Jailbreaking

Jailbreaking as a Reward Misspecification Problem

June 20, 2024
저자: Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong
cs.AI

초록

대규모 언어 모델(LLM)의 광범위한 채택은 특히 적대적 공격에 대한 취약성과 관련하여 그 안전성과 신뢰성에 대한 우려를 불러일으켰습니다. 본 논문에서는 이러한 취약성을 정렬 과정 중의 보상 오설정(reward misspecification)에 기인한다는 새로운 관점을 제안합니다. 우리는 보상 오설정의 정도를 정량화하기 위한 ReGap이라는 메트릭을 소개하고, 이를 통해 유해한 백도어 프롬프트를 탐지하는 데 있어서의 효과성과 견고성을 입증합니다. 이러한 통찰을 바탕으로, 다양한 정렬된 LLM을 대상으로 적대적 프롬프트를 생성하는 자동화된 레드 팀링 시스템인 ReMiss를 제시합니다. ReMiss는 AdvBench 벤치마크에서 최첨단의 공격 성공률을 달성하면서도 생성된 프롬프트의 인간 가독성을 유지합니다. 상세한 분석을 통해 제안된 보상 오설정 목표가 기존 방법에 비해 가져오는 독특한 장점을 강조합니다.
English
The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts against various target aligned LLMs. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark while preserving the human readability of the generated prompts. Detailed analysis highlights the unique advantages brought by the proposed reward misspecification objective compared to previous methods.

Summary

AI-Generated Summary

PDF132November 29, 2024