GPT-4Vのレッドチーミング:GPT-4Vは単一/複数モーダルなジェイルブレイク攻撃に対して安全か?
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?
April 4, 2024
著者: Shuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu
cs.AI
要旨
様々なジャイルブレイク攻撃が提案され、大規模言語モデル(LLM)に対するレッドチーミングが行われ、LLMの脆弱なセーフガードが明らかになりました。さらに、いくつかの手法はテキストモダリティに限定されず、視覚入力を摂動させることでマルチモーダル大規模言語モデル(MLLM)へのジャイルブレイク攻撃を拡張しています。しかし、普遍的な評価ベンチマークの欠如により、性能の再現性と公平な比較が複雑化しています。また、特にGPT-4Vのような最先端(SOTA)のクローズドソースモデル、特にMLLMの包括的な評価が不足しています。これらの問題に対処するため、本研究ではまず、11の異なるセキュリティポリシーをカバーする1445の有害な質問を含む包括的なジャイルブレイク評価データセットを構築しました。このデータセットに基づいて、SOTAのプロプライエタリモデルとオープンソースモデルを含む11の異なるLLMとMLLMに対して、広範なレッドチーミング実験を実施しました。その後、評価結果を深く分析し、以下のことを発見しました。(1) GPT-4とGPT-4Vは、オープンソースのLLMやMLLMと比較して、ジャイルブレイク攻撃に対する優れた堅牢性を示しています。(2) Llama2とQwen-VL-Chatは、他のオープンソースモデルと比較してより堅牢です。(3) 視覚的ジャイルブレイク手法の転移性は、テキスト的ジャイルブレイク手法と比較して相対的に限定的です。データセットとコードは以下のURLで確認できます。
https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md
English
Various jailbreak attacks have been proposed to red-team Large Language
Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some
methods are not limited to the textual modality and extend the jailbreak attack
to Multimodal Large Language Models (MLLMs) by perturbing the visual input.
However, the absence of a universal evaluation benchmark complicates the
performance reproduction and fair comparison. Besides, there is a lack of
comprehensive evaluation of closed-source state-of-the-art (SOTA) models,
especially MLLMs, such as GPT-4V. To address these issues, this work first
builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions
covering 11 different safety policies. Based on this dataset, extensive
red-teaming experiments are conducted on 11 different LLMs and MLLMs, including
both SOTA proprietary models and open-source models. We then conduct a deep
analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate
better robustness against jailbreak attacks compared to open-source LLMs and
MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other
open-source models. (3) The transferability of visual jailbreak methods is
relatively limited compared to textual jailbreak methods. The dataset and code
can be found here
https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .Summary
AI-Generated Summary