AdvPrompter:用于LLM的快速自适应对抗提示AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs
尽管最近大型语言模型(LLMs)取得了显著的成功,但它们容易受到某些越狱攻击的影响,导致生成不当或有害内容。手动红队测试需要找到会导致此类越狱的对抗提示,例如通过在给定指令后附加后缀,这种方法效率低且耗时。另一方面,自动对抗提示生成往往会导致语义上无意义的攻击,容易被基于困惑度的过滤器检测到,可能需要来自TargetLLM的梯度信息,或由于耗时的离散优化过程而难以扩展。在本文中,我们提出了一种新方法,使用另一个名为AdvPrompter的LLM,能够在几秒钟内生成人类可读的对抗提示,比现有基于优化的方法快800倍。我们使用一种新算法训练AdvPrompter,无需访问TargetLLM的梯度。该过程交替进行两个步骤:(1)通过优化AdvPrompter的预测生成高质量的目标对抗后缀,和(2)使用生成的对抗后缀对AdvPrompter进行低秩微调。经过训练的AdvPrompter生成的后缀可以掩盖输入指令而不改变其含义,从而诱使TargetLLM给出有害响应。在流行的开源TargetLLMs上的实验结果显示,我们在AdvBench数据集上取得了最先进的结果,并且这些结果也适用于封闭式黑盒LLM API。此外,我们证明通过在AdvPrompter生成的合成数据集上进行微调,LLMs可以在保持性能的同时更加抵抗越狱攻击,即获得更高的MMLU分数。