Desbloqueio como um Problema de Especificação Incorreta de Recompensa
Jailbreaking as a Reward Misspecification Problem
June 20, 2024
Autores: Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong
cs.AI
Resumo
A ampla adoção de grandes modelos de linguagem (LLMs) tem levantado preocupações sobre sua segurança e confiabilidade, especialmente em relação à sua vulnerabilidade a ataques adversariais. Neste artigo, propomos uma nova perspectiva que atribui essa vulnerabilidade à especificação incorreta de recompensa durante o processo de alinhamento. Introduzimos uma métrica ReGap para quantificar a extensão da especificação incorreta de recompensa e demonstramos sua eficácia e robustez na detecção de prompts maliciosos. Com base nessas percepções, apresentamos o ReMiss, um sistema para simulação automatizada de equipe vermelha que gera prompts adversariais contra vários LLMs alinhados alvo. O ReMiss alcança taxas de sucesso de ataque de ponta no benchmark AdvBench, preservando a legibilidade humana dos prompts gerados. Uma análise detalhada destaca as vantagens únicas trazidas pelo objetivo de especificação incorreta de recompensa proposto em comparação com métodos anteriores.
English
The widespread adoption of large language models (LLMs) has raised concerns
about their safety and reliability, particularly regarding their vulnerability
to adversarial attacks. In this paper, we propose a novel perspective that
attributes this vulnerability to reward misspecification during the alignment
process. We introduce a metric ReGap to quantify the extent of reward
misspecification and demonstrate its effectiveness and robustness in detecting
harmful backdoor prompts. Building upon these insights, we present ReMiss, a
system for automated red teaming that generates adversarial prompts against
various target aligned LLMs. ReMiss achieves state-of-the-art attack success
rates on the AdvBench benchmark while preserving the human readability of the
generated prompts. Detailed analysis highlights the unique advantages brought
by the proposed reward misspecification objective compared to previous methods.