ユニバーサル・マルチプロンプトを用いたジェイルブレイキング
Jailbreaking with Universal Multi-Prompts
February 3, 2025
著者: Yu-Ling Hsu, Hsuan Su, Shang-Tse Chen
cs.AI
要旨
近年、大規模言語モデル(LLMs)は急速な発展を遂げ、さまざまなアプリケーションを革新し、利便性と生産性を著しく向上させています。しかしながら、その印象的な能力と並行して、倫理的懸念やジェイルブレイキングなどの新しい攻撃手法が浮上しています。ほとんどのプロンプティング技術は、個々のケースに対して敵対的な入力を最適化することに焦点を当てており、大規模データセットを扱う際にはより高い計算コストが発生します。一般的な設定で未知のタスクに転送できる普遍的な攻撃者を訓練するというより一般的な研究は少ないです。本論文では、JUMPという、普遍的なマルチプロンプトを使用してLLMsをジェイルブレイクするためのプロンプトベースの手法を紹介します。また、我々のアプローチを防御のために適応させたものをDUMPと呼びます。実験結果は、普遍的なマルチプロンプトを最適化するための我々の手法が既存の技術を凌駕していることを示しています。
English
Large language models (LLMs) have seen rapid development in recent years,
revolutionizing various applications and significantly enhancing convenience
and productivity. However, alongside their impressive capabilities, ethical
concerns and new types of attacks, such as jailbreaking, have emerged. While
most prompting techniques focus on optimizing adversarial inputs for individual
cases, resulting in higher computational costs when dealing with large
datasets. Less research has addressed the more general setting of training a
universal attacker that can transfer to unseen tasks. In this paper, we
introduce JUMP, a prompt-based method designed to jailbreak LLMs using
universal multi-prompts. We also adapt our approach for defense, which we term
DUMP. Experimental results demonstrate that our method for optimizing universal
multi-prompts outperforms existing techniques.Summary
AI-Generated Summary