ChatPaper.aiChatPaper

Взлом тюрьмы как проблема неправильной спецификации вознаграждения

Jailbreaking as a Reward Misspecification Problem

June 20, 2024
Авторы: Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong
cs.AI

Аннотация

Широкое принятие крупных языковых моделей (LLM) вызвало опасения относительно их безопасности и надежности, особенно в отношении их уязвимости к атакам злоумышленников. В данной статье мы предлагаем новую перспективу, связывающую эту уязвимость с неправильной спецификацией вознаграждения в процессе выравнивания. Мы представляем метрику ReGap для количественной оценки степени неправильной спецификации вознаграждения и демонстрируем ее эффективность и устойчивость при обнаружении вредоносных подсказок-заглушек. Основываясь на этих идеях, мы представляем ReMiss, систему для автоматизированного красного тестирования, которая генерирует вредоносные подсказки против различных целевых выровненных LLM. ReMiss достигает передовых показателей успешности атак на бенчмарке AdvBench, сохраняя читаемость для человека сгенерированных подсказок. Подробный анализ выделяет уникальные преимущества, принесенные предложенной цели неправильной спецификации вознаграждения по сравнению с предыдущими методами.
English
The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts against various target aligned LLMs. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark while preserving the human readability of the generated prompts. Detailed analysis highlights the unique advantages brought by the proposed reward misspecification objective compared to previous methods.

Summary

AI-Generated Summary

PDF132November 29, 2024